Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
TwelveLabs Marengo Embed 2.7
Das TwelveLabs Marengo Embed 2.7 Modell generiert Einbettungen aus Video-, Text-, Audio- oder Bildeingaben. Diese Einbettungen können für die Ähnlichkeitssuche, Clustering und andere Aufgaben des maschinellen Lernens verwendet werden. Das Modell unterstützt asynchrone Inferenz über die API. StartAsyncInvoke
Anbieter — TwelveLabs
Kategorien — Einbettungen, multimodal
Modell-ID —
twelvelabs.marengo-embed-2-7-v1:0
Eingabemodalität — Video, Text, Audio, Bild
Ausgabemodalität — Einbettungen
Maximale Videogröße — 2 Stunden langes Video (< 2 GB Dateigröße)
TwelveLabs Marengo Embed 2.7Parameter anfordern
In der folgenden Tabelle werden die Eingabeparameter für das TwelveLabs Marengo Embed 2.7 Modell beschrieben:
Feld | Typ | Erforderlich | Beschreibung |
---|---|---|---|
inputType |
Zeichenfolge | Ja | Modalität für die Einbettung. Zulässige Werte: video , text , audio , image . |
inputText |
Zeichenfolge | Nein | Text, der wann inputType eingebettet werden soll, ist. text Erforderlich, wenn inputType ein text ist. Die Texteingabe ist nicht über die S3-URI möglich, sondern nur über das inputText Feld. |
startSec |
double | Nein | Der Startversatz in Sekunden vom Beginn des Video- oder Audiomaterials, an dem die Verarbeitung beginnen soll. Wenn Sie 0 angeben, wird am Anfang des Mediums begonnen. Standard: 0, Min: 0. |
lengthSec |
double | Nein | Die Länge in Sekunden des Video- oder Audiosignals, ab dem die Verarbeitung erfolgen würdestartSec . Standard: Mediendauer, Max: Mediendauer. |
useFixedLengthSec |
double | Nein | Nur für audio video Oder-Eingänge. Die gewünschte feste Dauer in Sekunden für jeden Clip, für den die Plattform eine Einbettung generiert. Min.: 2, Max.: 10. Falls nicht vorhanden, für Video: Segmente werden dynamisch durch die Erkennung von Aufnahmegrenzen aufgeteilt; für Audio: Segmente werden gleichmäßig aufgeteilt, sodass sie am nächsten an 10 Sekunden liegen (wenn es sich also um einen 50-Sekunden-Clip handelt, dann sind es 5 Segmente mit jeweils 10 Sekunden, aber bei einem 16-Sekunden-Clip sind es 2 Segmente mit jeweils 8 Sekunden). |
textTruncate |
Zeichenfolge | Nein | Nur zur text Eingabe. Gibt an, wie die Plattform Text kürzt, der 77 Token überschreitet. Gültige Werte: end (schneidet das Ende des Textes ab), none (gibt einen Fehler zurück, wenn der Text das Limit überschreitet). Standard: end . |
embeddingOption |
auflisten | Nein | Nur zur video Eingabe. Gibt an, welche Arten von Einbettungen abgerufen werden sollen. Gültige Werte: visual-text (visuelle Einbettungen, optimiert für die Textsuche), visual-image (visuelle Einbettungen, optimiert für die Bildsuche), (Audio-Einbettungen). audio Wenn nicht angegeben, werden alle verfügbaren Einbettungen zurückgegeben. |
mediaSource |
object | Nein | Beschreibt die Medienquelle. Erforderlich für die Eingabetypen: image video , undaudio . |
mediaSource.base64String |
Zeichenfolge | Nein | Base64-codierte Bytezeichenfolge für das Medium. Maximal: 36 MB. Entweder base64String oder s3Location muss angegeben werden, ob verwendet mediaSource wird. |
mediaSource.s3Location.uri |
Zeichenfolge | Nein | S3-URI, von der die Medien heruntergeladen werden konnten. Für Videos: maximal 2 Stunden lang (< 2 GB Dateigröße). Erforderlich bei Verwendungs3Location . |
mediaSource.s3Location.bucketOwner |
Zeichenfolge | Nein | AWS-Konto-ID des Bucket-Besitzers. |
minClipSec |
int | Nein | Nur zur video Eingabe. Stellen Sie eine minimale Clip-Sekunde ein. Hinweis: useFixedLengthSec sollte größer als dieser Wert sein. Standard: 4, Min: 1, Max: 5. |
TwelveLabs Marengo Embed 2.7-Antwortfelder
In der folgenden Tabelle werden die Ausgabefelder für das TwelveLabs Marengo Embed 2.7 Modell beschrieben:
Feld | Typ | Beschreibung |
---|---|---|
embedding |
Liste der Doppelgänger | Werte einbetten |
embeddingOption |
Zeichenfolge | Die Art der Einbettungen für die Multivektorausgabe (gilt nur für Video). Gültige Werte: visual-text (visuelle Einbettungen sind eng an Texteinbettungen ausgerichtet), visual-image (visuelle Einbettungen sind eng an Bildeinbettungen ausgerichtet), (Audioeinbettungen). audio |
startSec |
double | Der Start-Offset des Clips. Gilt nicht für Text- und Bildeinbettungen. |
endSec |
double | Der Endversatz des Clips. Gilt nicht für Text- und Bildeinbettungen. |
TwelveLabs Marengo Embed 2.7Anfrage und Antwort
Die folgenden Beispiele zeigen, wie das TwelveLabs Marengo Embed 2.7 Modell mit verschiedenen Eingabetypen verwendet wird. Beachten Sie, dass die StartAsyncInvoke API für die Verarbeitung TwelveLabs Marengo Embed 2.7 verwendet wird.