Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
TwelveLabs Marengo Embed 3.0
El TwelveLabs Marengo Embed 3.0 modelo genera incrustaciones mejoradas a partir de entradas de vídeo, texto, audio o imagen. Esta última versión ofrece un rendimiento y una precisión mejorados en la búsqueda de similitudes, la agrupación en clústeres y otras tareas de aprendizaje automático.
Proveedor: TwelveLabs
ID de modelo: twelvelabs.marengo-embed-3-0-v1:0
Marengo Embed 3.0 ofrece varias mejoras clave:
Capacidad de procesamiento de vídeo ampliada: procese hasta 4 horas de contenido de vídeo y audio. Los archivos pueden ocupar hasta 6 GB, el doble de la capacidad de las versiones anteriores. Esto lo hace ideal para analizar eventos deportivos completos, vídeos de entrenamiento prolongados y producciones cinematográficas completas.
Análisis deportivo mejorado: el modelo ofrece mejoras significativas. Proporciona una mejor comprensión de la dinámica del juego, los movimientos de los jugadores y la detección de eventos.
Soporte multilingüe global: capacidades lingüísticas ampliadas de 12 a 36 idiomas. Esto permite a las organizaciones globales crear sistemas unificados de búsqueda y recuperación que funcionan sin problemas en diversas regiones y mercados.
Precisión de búsqueda multimodal: combine imágenes y texto descriptivo en una sola solicitud de incrustación. Esto combina la similitud visual con la comprensión semántica para ofrecer resultados de búsqueda más precisos y contextualmente relevantes.
Dimensión de incrustación reducida: se ha reducido de 1024 a 512, lo que puede ayudar a reducir los costes de almacenamiento.
El modelo TwelveLabs Marengo Embed 3.0 admite las operaciones de Tiempo de ejecución de Amazon Bedrock que se indican en la siguiente tabla.
-
Para obtener más información sobre los casos de uso para los diferentes métodos de API, consulte Obtenga información sobre los casos de uso de diferentes métodos de inferencia de modelos.
-
Para obtener más información acerca de los tipos de modelos, consulte Cómo funciona la inferencia en Amazon Bedrock.
-
Para obtener una lista de modelos IDs y ver los modelos y AWS las regiones compatiblesTwelveLabs Marengo Embed 3.0, busque el modelo en la tabla que aparece en. Modelos fundacionales compatibles en Amazon Bedrock
-
Para obtener una lista completa del perfil de inferencia IDs, consulteRegiones y modelos compatibles con los perfiles de inferencia. El ID del perfil de inferencia se basa en la AWS región.
-
| Operación de la API | Tipos de modelos compatibles | Modalidades de entrada | Modalidades de salida |
|---|---|---|---|
|
InvokeModel |
US East (Virginia del Norte): modelos base y perfiles de inferencia Europa (Irlanda) — Perfiles de inferencia Asia-Pacífico (Seúl): modelos básicos |
Texto Image Nota: También se admiten textos e imágenes intercalados. |
Incrustación |
| StartAsyncInvoke | Modelos base |
Video Audio Image Texto Nota: También se admiten textos e imágenes intercalados. |
Incrustación |
nota
Utilice InvokeModel para generar incrustaciones para la consulta de búsqueda. Utilice StartAsyncInvoke para generar incrustaciones de activos a gran escala.
Las siguientes cuotas se aplican a la entrada:
| Modalidad de entrada | Máximo |
|---|---|
| Texto | 500 fichas |
| Image | 5 MB por imagen |
| Vídeo (S3) | 6 GB, 4 horas de duración |
| Audio (S3) | 6 GB, 4 horas de duración |
nota
Si define audio o vídeo insertado mediante la codificación base64, asegúrese de que la carga útil del cuerpo de la solicitud no supere la cuota de invocación de modelos de Amazon Bedrock de 25 MB.
Temas
Parámetros de solicitud de TwelveLabs Marengo Embed 3.0
Al realizar una solicitud, el campo en el que se especifica la entrada específica del modelo depende del funcionamiento de la API:
-
InvokeModel— En la solicitud
body. -
StartAsyncInvoke— En el
modelInputcampo del cuerpo de la solicitud.
El formato de la entrada del modelo depende de la modalidad de entrada:
Amplíe las siguientes secciones para obtener detalles sobre los parámetros de entrada:
Modalidad de incrustación.
Tipo: cadena
Obligatorio: sí
-
Valores válidos:
text|image|text_image|audio|video
Texto que se va a incrustar.
Tipo: cadena
Obligatorio: sí (para tipos de entrada compatibles)
-
Tipos de entrada compatibles: texto
Contiene información sobre el origen del contenido multimedia.
Tipo: objeto
Obligatorio: sí (si el tipo es compatible)
-
Tipos de entrada compatibles: imagen, vídeo, audio
El formato del objeto mediaSource en el cuerpo de la solicitud depende de si el contenido multimedia está definido como una cadena codificada en Base64 o como una ubicación de S3.
-
Cadena codificada en base64
{ "mediaSource": { "base64String": "base64-encoded string" } }-
base64String: la cadena codificada en Base64 del contenido multimedia.
-
-
Ubicación de S3: especifique el URI de S3 y el propietario del bucket.
{ "s3Location": { "uri": "string", "bucketOwner": "string" } }-
uri: el URI de S3 que contiene el contenido multimedia. -
bucketOwner— El ID de AWS cuenta del propietario del bucket de S3.
-
Especifica los tipos de incrustaciones que se van a recuperar.
Tipo: lista
Obligatorio: no
Valores válidos para los miembros de la lista:
-
visual— Inserciones visuales del vídeo. -
audio: incrustaciones del audio en el vídeo. -
transcription— Incrustaciones del texto transcrito.
-
-
Valor predeterminado:
Vídeo: ["visual», «audio», «transcripción"]
Audio: ["audio», «transcripción"]
-
Tipos de entrada compatibles: vídeo, audio
Especifica el alcance de las incrustaciones que se van a recuperar.
Tipo: lista
Obligatorio: no
Valores válidos para los miembros de la lista:
-
clip— Devuelve las incrustaciones de cada clip. -
asset— Devuelve las incrustaciones de todo el activo.
-
-
Tipos de entrada compatibles: vídeo, audio
Punto temporal en segundos del clip en el que debe comenzar el procesamiento.
Tipo: Doble
Obligatorio: no
Valor mínimo: 0
Valor predeterminado: 0
-
Tipos de entrada compatibles: vídeo, audio
Punto temporal en segundos en el que debe finalizar el procesamiento.
Tipo: Doble
Obligatorio: no
Valor mínimo: StartSec + longitud del segmento
Valor máximo: duración del contenido multimedia
Valor predeterminado: duración del contenido multimedia
-
Tipos de entrada compatibles: vídeo, audio
Define cómo se divide el contenido multimedia en segmentos para la generación de elementos incrustados.
Tipo: objeto
Obligatorio: no
-
Tipos de entrada compatibles: vídeo, audio
El objeto de segmentación contiene un method campo y parámetros específicos del método:
-
method— El método de segmentación que se va a utilizar. Valores válidos:dynamic|fixed -
dynamic— En el caso del vídeo, utiliza la detección de límites de disparo para dividir el contenido de forma dinámica. Contiene:-
minDurationSec— Duración mínima de cada segmento en segundos. Tipo: número entero. Rango: 1-5. Predeterminado: 4.
-
-
fixed— Divide el contenido en segmentos de igual duración. Contiene:-
durationSec— Duración de cada segmento en segundos. Tipo: número entero. Rango: 1-10. Predeterminado: 6.
-
Comportamiento predeterminado:
-
Vídeo: utiliza segmentación dinámica con detección de límites de disparo.
-
Audio: utiliza segmentación fija. El contenido se divide lo más uniformemente posible con segmentos cercanos a los 10 segundos.
Identificador único para la solicitud de inferencia.
Tipo: cadena
Obligatorio: no
Respuesta de TwelveLabs Marengo Embed 3.0
La ubicación de las incrustaciones de salida y los metadatos asociados depende del método de invocación:
-
InvokeModel — En el cuerpo de la respuesta.
-
StartAsyncInvoke — En el segmento S3 definido en
s3OutputDataConfig, una vez finalizado el trabajo de invocación asíncrona.
Si hay varios vectores de incrustaciones, la salida es una lista de objetos, cada uno de los cuales contiene un vector y sus metadatos asociados.
El formato del vector de incrustaciones de salida es el siguiente:
{ "data": { "embedding": [ 0.111, 0.234, ... ], "embeddingOption": ["visual", "audio", "transcription" (for video input) | "audio", "transcription" (for audio input)], "embeddingScope": ["asset" | "clip"], "startSec": 0, "endSec": 4.2 } }
Las incrustaciones se devuelven como una matriz de elementos flotantes.
El lugar donde veas esta respuesta depende del método de API que hayas utilizado:
-
InvokeModel — Aparece en el cuerpo de la respuesta.
-
StartAsyncInvoke — Aparece en la ubicación S3 que especificó en la solicitud. La respuesta devuelve un
invocationArn. Puede usar esto para obtener metadatos sobre la invocación asíncrona. Esto incluye el estado y la ubicación de S3 donde se escriben los resultados.
Amplíe las siguientes secciones para obtener detalles sobre los parámetros de respuesta:
Representación vectorial de la incrustaciones de entrada.
Tipo: lista de valores double
El tipo de incrustaciones.
Tipo: cadena
Valores posibles:
-
visual: incrustaciones visuales del vídeo.
-
audio: incrustaciones del audio en el vídeo.
-
transcripción: incrustaciones del texto transcrito.
-
-
Tipos de entrada compatibles: vídeo, audio
Especifica el alcance de las incrustaciones que se van a recuperar.
Tipo: cadena
Puede incluir uno o más de los siguientes valores:
-
clip: devuelve las incrustaciones de cada clip.
-
activo: devuelve las incrustaciones de todo el activo.
El desplazamiento inicial del clip.
Tipo: Doble
-
Tipos de entrada compatibles: vídeo, audio
El desfase final del clip. No se aplica a las incrustaciones de texto, imagen o texto_imagen.
Tipo: Doble
-
Tipos de entrada compatibles: vídeo, audio
Ejemplos de código de TwelveLabs Marengo Embed 3.0
En esta sección se muestra cómo utilizar el modelo TwelveLabs Marengo Embed 3.0 con diferentes tipos de entrada mediante Python. Los ejemplos muestran cómo definir la entrada específica del modelo y cómo ejecutar las invocaciones del modelo.
nota
InvokeModel admite texto, imagen y texto con entrada de imagen intercalada. Para la entrada de vídeo y audio, utilice. StartAsyncInvoke
Reúna su código con los siguientes pasos:
1. Defina la entrada específica del modelo
Defina la entrada específica del modelo en función del tipo de entrada:
2. Ejecute la invocación del modelo utilizando la entrada del modelo
A continuación, añada el fragmento de código que corresponda al método de invocación del modelo que prefiera.