TwelveLabs Marengo Embed 2.7 - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

TwelveLabs Marengo Embed 2.7

Das TwelveLabs Marengo Embed 2.7 Modell generiert Einbettungen aus Video-, Text-, Audio- oder Bildeingaben. Diese Einbettungen können für die Ähnlichkeitssuche, Clustering und andere Aufgaben des maschinellen Lernens verwendet werden. Das Modell unterstützt asynchrone Inferenz über die API. StartAsyncInvoke

  • Anbieter — TwelveLabs

  • Kategorien — Einbettungen, multimodal

  • Modell-ID — twelvelabs.marengo-embed-2-7-v1:0

  • Eingabemodalität — Video, Text, Audio, Bild

  • Ausgabemodalität — Einbettungen

  • Maximale Videogröße — 2 Stunden langes Video (< 2 GB Dateigröße)

TwelveLabs Marengo Embed 2.7Parameter anfordern

In der folgenden Tabelle werden die Eingabeparameter für das TwelveLabs Marengo Embed 2.7 Modell beschrieben:

TwelveLabs Marengo Embed 2.7Anforderungsparameter
Feld Typ Erforderlich Beschreibung
inputType Zeichenfolge Ja Modalität für die Einbettung. Zulässige Werte: video, text, audio, image.
inputText Zeichenfolge Nein Text, der wann inputType eingebettet werden soll, ist. text Erforderlich, wenn inputType ein text ist. Die Texteingabe ist nicht über die S3-URI möglich, sondern nur über das inputText Feld.
startSec double Nein Der Startversatz in Sekunden vom Beginn des Video- oder Audiomaterials, an dem die Verarbeitung beginnen soll. Wenn Sie 0 angeben, wird am Anfang des Mediums begonnen. Standard: 0, Min: 0.
lengthSec double Nein Die Länge in Sekunden des Video- oder Audiosignals, ab dem die Verarbeitung erfolgen würdestartSec. Standard: Mediendauer, Max: Mediendauer.
useFixedLengthSec double Nein Nur für audio video Oder-Eingänge. Die gewünschte feste Dauer in Sekunden für jeden Clip, für den die Plattform eine Einbettung generiert. Min.: 2, Max.: 10. Falls nicht vorhanden, für Video: Segmente werden dynamisch durch die Erkennung von Aufnahmegrenzen aufgeteilt; für Audio: Segmente werden gleichmäßig aufgeteilt, sodass sie am nächsten an 10 Sekunden liegen (wenn es sich also um einen 50-Sekunden-Clip handelt, dann sind es 5 Segmente mit jeweils 10 Sekunden, aber bei einem 16-Sekunden-Clip sind es 2 Segmente mit jeweils 8 Sekunden).
textTruncate Zeichenfolge Nein Nur zur text Eingabe. Gibt an, wie die Plattform Text kürzt, der 77 Token überschreitet. Gültige Werte: end (schneidet das Ende des Textes ab), none (gibt einen Fehler zurück, wenn der Text das Limit überschreitet). Standard: end.
embeddingOption auflisten Nein Nur zur video Eingabe. Gibt an, welche Arten von Einbettungen abgerufen werden sollen. Gültige Werte: visual-text (visuelle Einbettungen, optimiert für die Textsuche), visual-image (visuelle Einbettungen, optimiert für die Bildsuche), (Audio-Einbettungen). audio Wenn nicht angegeben, werden alle verfügbaren Einbettungen zurückgegeben.
mediaSource object Nein Beschreibt die Medienquelle. Erforderlich für die Eingabetypen: imagevideo, undaudio.
mediaSource.base64String Zeichenfolge Nein Base64-codierte Bytezeichenfolge für das Medium. Maximal: 36 MB. Entweder base64String oder s3Location muss angegeben werden, ob verwendet mediaSource wird.
mediaSource.s3Location.uri Zeichenfolge Nein S3-URI, von der die Medien heruntergeladen werden konnten. Für Videos: maximal 2 Stunden lang (< 2 GB Dateigröße). Erforderlich bei Verwendungs3Location.
mediaSource.s3Location.bucketOwner Zeichenfolge Nein AWS-Konto-ID des Bucket-Besitzers.
minClipSec int Nein Nur zur video Eingabe. Stellen Sie eine minimale Clip-Sekunde ein. Hinweis: useFixedLengthSec sollte größer als dieser Wert sein. Standard: 4, Min: 1, Max: 5.

TwelveLabs Marengo Embed 2.7-Antwortfelder

In der folgenden Tabelle werden die Ausgabefelder für das TwelveLabs Marengo Embed 2.7 Modell beschrieben:

TwelveLabs Marengo Embed 2.7-Antwortfelder
Feld Typ Beschreibung
embedding Liste der Doppelgänger Werte einbetten
embeddingOption Zeichenfolge Die Art der Einbettungen für die Multivektorausgabe (gilt nur für Video). Gültige Werte: visual-text (visuelle Einbettungen sind eng an Texteinbettungen ausgerichtet), visual-image (visuelle Einbettungen sind eng an Bildeinbettungen ausgerichtet), (Audioeinbettungen). audio
startSec double Der Start-Offset des Clips. Gilt nicht für Text- und Bildeinbettungen.
endSec double Der Endversatz des Clips. Gilt nicht für Text- und Bildeinbettungen.

TwelveLabs Marengo Embed 2.7Anfrage und Antwort

Die folgenden Beispiele zeigen, wie das TwelveLabs Marengo Embed 2.7 Modell mit verschiedenen Eingabetypen verwendet wird. Beachten Sie, dass die StartAsyncInvoke API für die Verarbeitung TwelveLabs Marengo Embed 2.7 verwendet wird.

Request

Die folgenden Beispiele zeigen Anforderungsformate für das TwelveLabs Marengo Embed 2.7 Modell, das die StartAsyncInvoke API verwendet.

Texteingabe:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "text", "inputText": "Spiderman flies through a street and catches a car with his web" }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Bildeingabe mit S3-Standort:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "image", "mediaSource": { "s3Location": { "uri": "s3://your-image-object-s3-path", "bucketOwner": "your-image-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Bildeingabe mit Base64-Kodierung:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "image", "mediaSource": { "base64String": "base_64_encoded_string_of_image" } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Videoeingang mit S3-Standort:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "video", "mediaSource": { "s3Location": { "uri": "s3://your-video-object-s3-path", "bucketOwner": "your-video-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Videoeingang mit Base64-Kodierung und Zeitbereich:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "video", "mediaSource": { "base64String": "base_64_encoded_string_of_video" }, "startSec": 0, "lengthSec": 13, "useFixedLengthSec": 5, "embeddingOption": ["visual-text", "audio"] }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Audioeingang mit S3-Standort:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "audio", "mediaSource": { "s3Location": { "uri": "s3://your-audio-object-s3-path", "bucketOwner": "your-audio-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Audioeingang mit Base64-Kodierung und Zeitbereich:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "audio", "mediaSource": { "base64String": "base_64_encoded_string_of_audio" }, "startSec": 0, "lengthSec": 13, "useFixedLengthSec": 10 }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }
Response

Die folgenden Beispiele zeigen Antwortformate aus dem TwelveLabs Marengo Embed 2.7 Modell. Da dieses Modell verwendet StartAsyncInvoke, werden Antworten an den angegebenen S3-Ausgabespeicherort in übermitteltoutputDataConfig.

Antwort auf das Einbetten von Text:

{ "embedding": [0.123, -0.456, 0.789, ...], "embeddingOption": null, "startSec": null, "endSec": null }

Antwort auf das Einbetten von Bildern:

{ "embedding": [0.234, -0.567, 0.890, ...], "embeddingOption": null, "startSec": null, "endSec": null }

Reaktion auf das Einbetten von Videos (einzelner Clip):

{ "embedding": [0.345, -0.678, 0.901, ...], "embeddingOption": "visual-text", "startSec": 0.0, "endSec": 5.0 }

Reaktion auf das Einbetten von Videos (mehrere Clips mit unterschiedlichen Einbettungsarten):

[ { "embedding": [0.123, -0.456, 0.789, ...], "embeddingOption": "visual-text", "startSec": 0.0, "endSec": 5.0 }, { "embedding": [0.234, -0.567, 0.890, ...], "embeddingOption": "visual-text", "startSec": 5.0, "endSec": 10.0 }, { "embedding": [0.345, -0.678, 0.901, ...], "embeddingOption": "audio", "startSec": 0.0, "endSec": 10.0 } ]

Reaktion beim Einbetten von Audio (mehrere Clips):

[ { "embedding": [0.456, -0.789, 0.012, ...], "embeddingOption": null, "startSec": 0.0, "endSec": 10.0 }, { "embedding": [0.567, -0.890, 0.123, ...], "embeddingOption": null, "startSec": 10.0, "endSec": 13.0 } ]