TwelveLabs Marengo Embed 2.7 - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

TwelveLabs Marengo Embed 2.7

Le TwelveLabs Marengo Embed 2.7 modèle génère des intégrations à partir d'entrées vidéo, texte, audio ou image. Ces intégrations peuvent être utilisées pour la recherche de similarités, le clustering et d'autres tâches d'apprentissage automatique. Le modèle prend en charge l'inférence asynchrone via l'API. StartAsyncInvoke

  • Fournisseur — TwelveLabs

  • Catégories — Embeddings multimodaux

  • Identifiant du modèle — twelvelabs.marengo-embed-2-7-v1:0

  • Modalité de saisie : vidéo, texte, audio, image

  • Modalité de sortie — Embeddings

  • Taille vidéo maximale : vidéo de 2 heures (taille de fichier inférieure à 2 Go)

TwelveLabs Marengo Embed 2.7paramètres de demande

Le tableau suivant décrit les paramètres d'entrée du TwelveLabs Marengo Embed 2.7 modèle :

TwelveLabs Marengo Embed 2.7paramètres de demande
Champ Type Obligatoire Description
inputType chaîne Oui Modalité d'intégration. Valeurs valides: video, text, audio, image.
inputText chaîne Non Texte à intégrer quand c'inputTypeest le castext. Obligatoire si inputType a pour valeur text. La saisie de texte n'est pas disponible par l'URI S3 mais uniquement par le inputText champ.
startSec double Non Le décalage de début en secondes par rapport au début de la vidéo ou de l'audio où le traitement doit commencer. Spécifier 0 signifie commencer depuis le début du média. Par défaut : 0, Minimum : 0.
lengthSec double Non Durée en secondes de la vidéo ou du son d'origine du traitementstartSec. Par défaut : durée du média, Max : durée du média.
useFixedLengthSec double Non Pour les video entrées audio ou uniquement. Durée fixe souhaitée en secondes pour chaque clip pour lequel la plateforme génère une intégration. Minimum : 2, maximum : 10. En cas d'absence, pour la vidéo : les segments sont divisés dynamiquement par détection des limites de prise de vue ; pour le son, les segments sont divisés de manière égale à 10 secondes au plus près (donc, s'il s'agit d'un clip de 50 secondes, il y aura 5 segments de 10 secondes chacun, mais s'il s'agit d'un clip de 16 secondes, il y aura 2 segments de 8 secondes chacun).
textTruncate chaîne Non Pour text entrée uniquement. Spécifie la manière dont la plateforme tronque le texte qui dépasse 77 jetons. Valeurs valides : end (tronquer la fin du texte), none (renvoie une erreur si le texte dépasse la limite). Par défaut: end.
embeddingOption liste Non Pour video entrée uniquement. Spécifie les types d'intégrations à récupérer. Valeurs valides : visual-text (intégrations visuelles optimisées pour la recherche de texte), visual-image (intégrations visuelles optimisées pour la recherche d'images), (intégrations audio). audio Si elles ne sont pas fournies, toutes les intégrations disponibles sont renvoyées.
mediaSource objet Non Décrit la source multimédia. Obligatoire pour les types d'entrée : imagevideo, etaudio.
mediaSource.base64String chaîne Non Chaîne d'octets codée en Base64 pour le média. Maximum : 36 Mo. L'un base64String ou l'autre s3Location doit être fourni s'mediaSourceil est utilisé.
mediaSource.s3Location.uri chaîne Non URI S3 à partir duquel le contenu multimédia peut être téléchargé. Pour les vidéos, durée maximale : 2 heures (taille de fichier inférieure à 2 Go). Obligatoire en cas d'utilisations3Location.
mediaSource.s3Location.bucketOwner chaîne Non ID de compte AWS du propriétaire du compartiment.
minClipSec int Non Pour video entrée uniquement. Définissez une seconde de clip minimale. Remarque : useFixedLengthSec doit être supérieure à cette valeur. Par défaut : 4, min : 1, max : 5.

TwelveLabs Marengo Embed 2.7 Champs de réponse

Le tableau suivant décrit les champs de sortie du TwelveLabs Marengo Embed 2.7 modèle :

TwelveLabs Marengo Embed 2.7 Champs de réponse
Champ Type Description
embedding Liste des chambres doubles Intégrer des valeurs
embeddingOption chaîne Type d'intégration pour la sortie multivectorielle (applicable uniquement pour la vidéo). Valeurs valides : visual-text (intégrations visuelles étroitement alignées sur les incorporations de texte), (intégrations visuelles étroitement alignées sur les incorporations d'images), visual-image (incorporations audio). audio
startSec double Le décalage de départ du clip. Non applicable aux intégrations de texte et d'images.
endSec double Le décalage final du clip. Non applicable aux intégrations de texte et d'images.

TwelveLabs Marengo Embed 2.7demande et réponse

Les exemples suivants montrent comment utiliser le TwelveLabs Marengo Embed 2.7 modèle avec différents types d'entrée. Notez qu'il TwelveLabs Marengo Embed 2.7 utilise l' StartAsyncInvoke API pour le traitement.

Request

Les exemples suivants montrent les formats de demande pour le TwelveLabs Marengo Embed 2.7 modèle à l'aide de l' StartAsyncInvoke API.

Saisie de texte :

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "text", "inputText": "Spiderman flies through a street and catches a car with his web" }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrée d'image avec emplacement S3 :

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "image", "mediaSource": { "s3Location": { "uri": "s3://your-image-object-s3-path", "bucketOwner": "your-image-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrée d'image avec encodage base64 :

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "image", "mediaSource": { "base64String": "base_64_encoded_string_of_image" } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrée vidéo avec emplacement S3 :

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "video", "mediaSource": { "s3Location": { "uri": "s3://your-video-object-s3-path", "bucketOwner": "your-video-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrée vidéo avec encodage base64 et plage de temps :

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "video", "mediaSource": { "base64String": "base_64_encoded_string_of_video" }, "startSec": 0, "lengthSec": 13, "useFixedLengthSec": 5, "embeddingOption": ["visual-text", "audio"] }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrée audio avec emplacement S3 :

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "audio", "mediaSource": { "s3Location": { "uri": "s3://your-audio-object-s3-path", "bucketOwner": "your-audio-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrée audio avec encodage base64 et plage de temps :

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "audio", "mediaSource": { "base64String": "base_64_encoded_string_of_audio" }, "startSec": 0, "lengthSec": 13, "useFixedLengthSec": 10 }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }
Response

Les exemples suivants montrent les formats de réponse du TwelveLabs Marengo Embed 2.7 modèle. Comme ce modèle l'utilise StartAsyncInvoke, les réponses sont envoyées à l'emplacement de sortie S3 spécifié dansoutputDataConfig.

Réponse d'intégration de texte :

{ "embedding": [0.123, -0.456, 0.789, ...], "embeddingOption": null, "startSec": null, "endSec": null }

Réponse d'intégration d'image :

{ "embedding": [0.234, -0.567, 0.890, ...], "embeddingOption": null, "startSec": null, "endSec": null }

Réponse d'intégration vidéo (clip unique) :

{ "embedding": [0.345, -0.678, 0.901, ...], "embeddingOption": "visual-text", "startSec": 0.0, "endSec": 5.0 }

Réponse d'intégration vidéo (plusieurs clips avec différents types d'intégration) :

[ { "embedding": [0.123, -0.456, 0.789, ...], "embeddingOption": "visual-text", "startSec": 0.0, "endSec": 5.0 }, { "embedding": [0.234, -0.567, 0.890, ...], "embeddingOption": "visual-text", "startSec": 5.0, "endSec": 10.0 }, { "embedding": [0.345, -0.678, 0.901, ...], "embeddingOption": "audio", "startSec": 0.0, "endSec": 10.0 } ]

Réponse d'intégration audio (clips multiples) :

[ { "embedding": [0.456, -0.789, 0.012, ...], "embeddingOption": null, "startSec": 0.0, "endSec": 10.0 }, { "embedding": [0.567, -0.890, 0.123, ...], "embeddingOption": null, "startSec": 10.0, "endSec": 13.0 } ]