Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
TwelveLabs Marengo Embed 2.7
El TwelveLabs Marengo Embed 2.7 modelo genera incrustaciones a partir de entradas de vídeo, texto, audio o imagen. Estas incrustaciones se pueden utilizar para la búsqueda de similitudes, la agrupación en clústeres y otras tareas de aprendizaje automático. El modelo admite la inferencia asíncrona a través de la API. StartAsyncInvoke
Proveedor — TwelveLabs
Categorías: incrustaciones, multimodales
ID de modelo:
twelvelabs.marengo-embed-2-7-v1:0
Modalidad de entrada: vídeo, texto, audio, imagen
Modalidad de salida: incrustaciones
Tamaño máximo de vídeo: vídeo de 2 horas de duración (tamaño de archivo inferior a 2 GB)
TwelveLabs Marengo Embed 2.7parámetros de solicitud
En la siguiente tabla se describen los parámetros de entrada del TwelveLabs Marengo Embed 2.7 modelo:
Campo | Tipo | Obligatorio | Descripción |
---|---|---|---|
inputType |
string | Sí | Modalidad de incrustación. Valores válidos: video , text , audio , image . |
inputText |
cadena | No | Texto que se va a incrustar cuando estéinputType . text Obligatorio si inputType es text . La entrada de texto no está disponible mediante el URI de S3, sino solo mediante el inputText campo. |
startSec |
double | No | La diferencia de inicio en segundos con respecto al principio del vídeo o audio es el punto en el que debería comenzar el procesamiento. Especificar 0 significa empezar desde el principio del contenido multimedia. Predeterminado: 0, mínimo: 0. |
lengthSec |
double | No | La duración en segundos del vídeo o el audio desde donde se realizaría el procesamientostartSec . Predeterminado: duración del contenido multimedia, máximo: duración del contenido multimedia. |
useFixedLengthSec |
double | No | Solo para video entradas audio o entradas. La duración fija deseada en segundos para cada clip para el que la plataforma genera una incrustación. Mín: 2, máximo: 10. Si no aparece, en el caso del vídeo: los segmentos se dividen de forma dinámica mediante la detección de los límites de la toma; en el caso del audio, los segmentos se dividen uniformemente para que se acerquen a los 10 segundos (si se trata de un clip de 50 segundos, serán 5 segmentos de 10 segundos cada uno, pero si es un clip de 16 segundos, serán 2 segmentos de 8 segundos cada uno). |
textTruncate |
cadena | No | Solo para text entrada. Especifica cómo la plataforma trunca el texto que supera los 77 tokens. Valores válidos: end (truncan el final del texto), none (devuelven un error si el texto supera el límite). Predeterminado: end . |
embeddingOption |
list | No | Solo para video entrada. Especifica los tipos de incrustaciones que se van a recuperar. Valores válidos: visual-text (incrustaciones visuales optimizadas para la búsqueda de texto), (incrustaciones visuales optimizadas para la búsqueda de imágenes), visual-image (incrustaciones de audio). audio Si no se proporciona, se devuelven todas las incrustaciones disponibles. |
mediaSource |
objeto | No | Describe la fuente multimedia. Necesario para los tipos de entrada: image video , yaudio . |
mediaSource.base64String |
cadena | No | Cadena de bytes codificada en Base64 para el medio. Máximo: 36 MB. Se debe proporcionar base64String o se s3Location debe proporcionar si mediaSource se utiliza. |
mediaSource.s3Location.uri |
cadena | No | URI de S3 desde donde se puede descargar el contenido multimedia. Para vídeo, duración máxima: 2 horas (tamaño de archivo inferior a 2 GB). Obligatorio si se utilizas3Location . |
mediaSource.s3Location.bucketOwner |
cadena | No | ID de cuenta de AWS del propietario del bucket. |
minClipSec |
int | No | Solo para video entrada. Establece un segundo de clip mínimo. Nota: useFixedLengthSec debe ser mayor que este valor. Predeterminado: 4, mínimo: 1, máximo: 5. |
Campos de respuesta de TwelveLabs Marengo Embed 2.7
En la siguiente tabla se describen los campos de salida del TwelveLabs Marengo Embed 2.7 modelo:
Campo | Tipo | Descripción |
---|---|---|
embedding |
Lista de dobles | Valores incrustados |
embeddingOption |
cadena | El tipo de incrustaciones para la salida multivectorial (solo aplicable al vídeo). Valores válidos: visual-text (incrustaciones visuales estrechamente alineadas con las incrustaciones de texto), (incrustaciones visuales estrechamente alineadas con las incrustaciones de imágenes), visual-image (incrustaciones de audio). audio |
startSec |
double | El desfase inicial del clip. No se aplica a la incrustación de texto e imágenes. |
endSec |
double | El desfase final del clip. No se aplica a la incrustación de texto e imágenes. |
TwelveLabs Marengo Embed 2.7solicitud y respuesta
Los siguientes ejemplos muestran cómo utilizar el TwelveLabs Marengo Embed 2.7 modelo con diferentes tipos de entrada. Tenga en cuenta que TwelveLabs Marengo Embed 2.7 utiliza la StartAsyncInvoke API para el procesamiento.