TwelveLabs Marengo Embed 2.7 - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

TwelveLabs Marengo Embed 2.7

El TwelveLabs Marengo Embed 2.7 modelo genera incrustaciones a partir de entradas de vídeo, texto, audio o imagen. Estas incrustaciones se pueden utilizar para la búsqueda de similitudes, la agrupación en clústeres y otras tareas de aprendizaje automático. El modelo admite la inferencia asíncrona a través de la API. StartAsyncInvoke

  • Proveedor — TwelveLabs

  • Categorías: incrustaciones, multimodales

  • ID de modelo: twelvelabs.marengo-embed-2-7-v1:0

  • Modalidad de entrada: vídeo, texto, audio, imagen

  • Modalidad de salida: incrustaciones

  • Tamaño máximo de vídeo: vídeo de 2 horas de duración (tamaño de archivo inferior a 2 GB)

TwelveLabs Marengo Embed 2.7parámetros de solicitud

En la siguiente tabla se describen los parámetros de entrada del TwelveLabs Marengo Embed 2.7 modelo:

TwelveLabs Marengo Embed 2.7parámetros de solicitud
Campo Tipo Obligatorio Descripción
inputType string Modalidad de incrustación. Valores válidos: video, text, audio, image.
inputText cadena No Texto que se va a incrustar cuando estéinputType. text Obligatorio si inputType es text. La entrada de texto no está disponible mediante el URI de S3, sino solo mediante el inputText campo.
startSec double No La diferencia de inicio en segundos con respecto al principio del vídeo o audio es el punto en el que debería comenzar el procesamiento. Especificar 0 significa empezar desde el principio del contenido multimedia. Predeterminado: 0, mínimo: 0.
lengthSec double No La duración en segundos del vídeo o el audio desde donde se realizaría el procesamientostartSec. Predeterminado: duración del contenido multimedia, máximo: duración del contenido multimedia.
useFixedLengthSec double No Solo para video entradas audio o entradas. La duración fija deseada en segundos para cada clip para el que la plataforma genera una incrustación. Mín: 2, máximo: 10. Si no aparece, en el caso del vídeo: los segmentos se dividen de forma dinámica mediante la detección de los límites de la toma; en el caso del audio, los segmentos se dividen uniformemente para que se acerquen a los 10 segundos (si se trata de un clip de 50 segundos, serán 5 segmentos de 10 segundos cada uno, pero si es un clip de 16 segundos, serán 2 segmentos de 8 segundos cada uno).
textTruncate cadena No Solo para text entrada. Especifica cómo la plataforma trunca el texto que supera los 77 tokens. Valores válidos: end (truncan el final del texto), none (devuelven un error si el texto supera el límite). Predeterminado: end.
embeddingOption list No Solo para video entrada. Especifica los tipos de incrustaciones que se van a recuperar. Valores válidos: visual-text (incrustaciones visuales optimizadas para la búsqueda de texto), (incrustaciones visuales optimizadas para la búsqueda de imágenes), visual-image (incrustaciones de audio). audio Si no se proporciona, se devuelven todas las incrustaciones disponibles.
mediaSource objeto No Describe la fuente multimedia. Necesario para los tipos de entrada: imagevideo, yaudio.
mediaSource.base64String cadena No Cadena de bytes codificada en Base64 para el medio. Máximo: 36 MB. Se debe proporcionar base64String o se s3Location debe proporcionar si mediaSource se utiliza.
mediaSource.s3Location.uri cadena No URI de S3 desde donde se puede descargar el contenido multimedia. Para vídeo, duración máxima: 2 horas (tamaño de archivo inferior a 2 GB). Obligatorio si se utilizas3Location.
mediaSource.s3Location.bucketOwner cadena No ID de cuenta de AWS del propietario del bucket.
minClipSec int No Solo para video entrada. Establece un segundo de clip mínimo. Nota: useFixedLengthSec debe ser mayor que este valor. Predeterminado: 4, mínimo: 1, máximo: 5.

Campos de respuesta de TwelveLabs Marengo Embed 2.7

En la siguiente tabla se describen los campos de salida del TwelveLabs Marengo Embed 2.7 modelo:

Campos de respuesta de TwelveLabs Marengo Embed 2.7
Campo Tipo Descripción
embedding Lista de dobles Valores incrustados
embeddingOption cadena El tipo de incrustaciones para la salida multivectorial (solo aplicable al vídeo). Valores válidos: visual-text (incrustaciones visuales estrechamente alineadas con las incrustaciones de texto), (incrustaciones visuales estrechamente alineadas con las incrustaciones de imágenes), visual-image (incrustaciones de audio). audio
startSec double El desfase inicial del clip. No se aplica a la incrustación de texto e imágenes.
endSec double El desfase final del clip. No se aplica a la incrustación de texto e imágenes.

TwelveLabs Marengo Embed 2.7solicitud y respuesta

Los siguientes ejemplos muestran cómo utilizar el TwelveLabs Marengo Embed 2.7 modelo con diferentes tipos de entrada. Tenga en cuenta que TwelveLabs Marengo Embed 2.7 utiliza la StartAsyncInvoke API para el procesamiento.

Request

Los siguientes ejemplos muestran los formatos de solicitud para el TwelveLabs Marengo Embed 2.7 modelo que utiliza la StartAsyncInvoke API.

Entrada de texto:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "text", "inputText": "Spiderman flies through a street and catches a car with his web" }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrada de imagen con ubicación S3:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "image", "mediaSource": { "s3Location": { "uri": "s3://your-image-object-s3-path", "bucketOwner": "your-image-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrada de imagen con codificación base64:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "image", "mediaSource": { "base64String": "base_64_encoded_string_of_image" } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrada de vídeo con ubicación S3:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "video", "mediaSource": { "s3Location": { "uri": "s3://your-video-object-s3-path", "bucketOwner": "your-video-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrada de vídeo con codificación base64 y rango de tiempo:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "video", "mediaSource": { "base64String": "base_64_encoded_string_of_video" }, "startSec": 0, "lengthSec": 13, "useFixedLengthSec": 5, "embeddingOption": ["visual-text", "audio"] }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrada de audio con ubicación S3:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "audio", "mediaSource": { "s3Location": { "uri": "s3://your-audio-object-s3-path", "bucketOwner": "your-audio-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Entrada de audio con codificación base64 y rango de tiempo:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "audio", "mediaSource": { "base64String": "base_64_encoded_string_of_audio" }, "startSec": 0, "lengthSec": 13, "useFixedLengthSec": 10 }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }
Response

Los siguientes ejemplos muestran los formatos de respuesta del TwelveLabs Marengo Embed 2.7 modelo. Como lo utiliza este modelo StartAsyncInvoke, las respuestas se envían a la ubicación de salida S3 especificada enoutputDataConfig.

Respuesta de incrustación de texto:

{ "embedding": [0.123, -0.456, 0.789, ...], "embeddingOption": null, "startSec": null, "endSec": null }

Respuesta de incrustación de imágenes:

{ "embedding": [0.234, -0.567, 0.890, ...], "embeddingOption": null, "startSec": null, "endSec": null }

Respuesta de incrustación de vídeo (clip único):

{ "embedding": [0.345, -0.678, 0.901, ...], "embeddingOption": "visual-text", "startSec": 0.0, "endSec": 5.0 }

Respuesta de incrustación de vídeo (varios clips con diferentes tipos de incrustación):

[ { "embedding": [0.123, -0.456, 0.789, ...], "embeddingOption": "visual-text", "startSec": 0.0, "endSec": 5.0 }, { "embedding": [0.234, -0.567, 0.890, ...], "embeddingOption": "visual-text", "startSec": 5.0, "endSec": 10.0 }, { "embedding": [0.345, -0.678, 0.901, ...], "embeddingOption": "audio", "startSec": 0.0, "endSec": 10.0 } ]

Respuesta de incrustación de audio (varios clips):

[ { "embedding": [0.456, -0.789, 0.012, ...], "embeddingOption": null, "startSec": 0.0, "endSec": 10.0 }, { "embedding": [0.567, -0.890, 0.123, ...], "embeddingOption": null, "startSec": 10.0, "endSec": 13.0 } ]