Parámetros de solicitud de TwelveLabs Marengo Embed 2.7 Respuesta de TwelveLabs Marengo Embed 2.7 Ejemplos de código de TwelveLabs Marengo Embed 2.7

TwelveLabs Marengo Embed 2.7

El modelo TwelveLabs Marengo Embed 2.7 genera incrustaciones a partir de entradas de vídeo, texto, audio o imagen. Estas incrustaciones se pueden utilizar para la búsqueda de similitudes, la agrupación en clústeres y otras tareas de machine learning.

Proveedor — TwelveLabs
ID de modelo: twelvelabs.marengo-embed-2-7-v1:0

El modelo TwelveLabs Marengo Embed 2.7 admite las operaciones de Tiempo de ejecución de Amazon Bedrock que se indican en la siguiente tabla.

Para obtener más información sobre los casos de uso para los diferentes métodos de API, consulte Obtenga información sobre los casos de uso de diferentes métodos de inferencia de modelos.
Para obtener más información acerca de los tipos de modelos, consulte Cómo funciona la inferencia en Amazon Bedrock.
- Para obtener una lista de modelos IDs y ver los modelos y AWS las regiones compatiblesTwelveLabs Marengo Embed 2.7, busque el modelo en la tabla deModelos fundacionales compatibles en Amazon Bedrock.
- Para obtener una lista completa del perfil de inferencia IDs, consulteRegiones y modelos compatibles con los perfiles de inferencia. El ID del perfil de inferencia se basa en la AWS región.

Operación de la API	Tipos de modelos compatibles	Modalidades de entrada	Modalidades de salida
InvokeModel	Perfiles de inferencia	Texto Image	Incrustación
StartAsyncInvoke	Modelos base	Video Audio Image Texto	Incrustación

Operación de la API

Tipos de modelos compatibles

Modalidades de entrada

Modalidades de salida

InvokeModel

Perfiles de inferencia

Texto

Image

Incrustación

StartAsyncInvoke

Modelos base

Video

Audio

Image

Texto

Incrustación

nota

Utilice InvokeModel para generar incrustaciones para la consulta de búsqueda. Utilice StartAsyncInvoke para generar incrustaciones de activos a gran escala.

Las siguientes cuotas se aplican a la entrada:

Modalidad de entrada	Máximo
Texto	77 fichas
Image	5 MB
Vídeo (S3)	2 GB
Audio (S3)	2 GB

nota

Si define audio o vídeo insertado mediante la codificación base64, asegúrese de que la carga útil del cuerpo de la solicitud no supere la cuota de invocación de modelos de Amazon Bedrock de 25 MB.

Temas

Parámetros de solicitud de TwelveLabs Marengo Embed 2.7
Respuesta de TwelveLabs Marengo Embed 2.7
Ejemplos de código de TwelveLabs Marengo Embed 2.7

Parámetros de solicitud de TwelveLabs Marengo Embed 2.7

Al realizar una solicitud, el campo en el que se especifica la entrada específica del modelo depende del funcionamiento de la API:

InvokeModel— En la solicitudbody.
StartAsyncInvoke— En el modelInput campo del cuerpo de la solicitud.

El formato de la entrada del modelo depende de la modalidad de entrada:

Text


{
    "inputType": "text",
    "inputText": "string",
    "textTruncate": "string
}

Inline image


{
     "inputType": "image",
     "mediaSource": {
          "base64String": "base64-encoded string"
     }
}

S3 image


{
    "inputType": "image",
    "mediaSource": {
        "s3Location": {
            "uri": "string",
            "bucketOwner": "string"
        }
    }
}

Inline video


{
    "inputType": "video",
    "mediaSource": {
        "s3Location": {
            "base64String": "base64-encoded string"
        }
    },
    "startSec": double,
    "lengthSec": double,
    "useFixedLengthSec": double,
    "embeddingOption": "visual-text" | "visual-image" | "audio"
}

S3 video


{
    "inputType": "image",
    "mediaSource": {
        "s3Location": {
           "uri": "string",
           "bucketOwner": "string"
        }
    },
    "startSec": double,
    "lengthSec": double,
    "useFixedLengthSec": double,
    "minClipSec": int,
    "embeddingOption": ["string"]
}

Inline audio


{
    "inputType": "audio", 
    "mediaSource": { 
        "base64String": "base64-encoded string"
    },
    "startSec": double,
    "lengthSec": double,
    "useFixedLengthSec": double
}

S3 audio


{
    "inputType": "audio",
    "mediaSource": {
        "s3Location": {
           "uri": "string",
           "bucketOwner": "string"
        }
    },
    "startSec": double,
    "lengthSec": double,
    "useFixedLengthSec": double
}

Amplíe las siguientes secciones para obtener detalles sobre los parámetros de entrada:

Modalidad de incrustación.

Tipo: cadena
Obligatorio: sí
Valores válidos: video | text | audio | image

Texto que se va a incrustar.

Tipo: cadena
Obligatorio: sí (para tipos de entrada compatibles)
Tipos de entrada compatibles: texto

Especifica cómo la plataforma trunca el texto.

Tipo: cadena
Obligatorio: no
Valores válidos:
- end: trunca el final del texto.
- none: devuelve un error si el texto supera el límite.
Valor predeterminado: final
Tipos de entrada compatibles: texto

Contiene información sobre el origen del contenido multimedia.

Tipo: objeto
Obligatorio: sí (si el tipo es compatible)
Tipos de entrada compatibles: imagen, vídeo, audio

El formato del objeto mediaSource en el cuerpo de la solicitud depende de si el contenido multimedia está definido como una cadena codificada en Base64 o como una ubicación de S3.

Cadena codificada en base64
```
{
    "mediaSource": {
        "base64String": "base64-encoded string"
    }
}
```
- base64String: la cadena codificada en Base64 del contenido multimedia.
Ubicación de S3: especifique el URI de S3 y el propietario del bucket.
```
{
    "s3Location": {
        "uri": "string",
        "bucketOwner": "string"
    }
}
```
- uri: el URI de S3 que contiene el contenido multimedia.
- bucketOwner— El ID de AWS cuenta del propietario del bucket de S3.

Especifica los tipos de incrustaciones que se van a recuperar.

Tipo: lista
Obligatorio: no
Valores válidos para los miembros de la lista:
- visual-text: incrustaciones visuales optimizadas para la búsqueda de texto.
- visual-image: incrustaciones visuales optimizadas para la búsqueda de imágenes.
- audio: incrustaciones del audio en el vídeo.
Valor predeterminado: ["visual-text", "visual-image", "audio"]
Tipos de entrada compatibles: vídeo, audio

Punto temporal en segundos del clip en el que debe comenzar el procesamiento.

Tipo: Doble
Obligatorio: no
Valor mínimo: 0
Valor predeterminado: 0
Tipos de entrada compatibles: vídeo, audio

El tiempo en segundos, contado desde el punto temporal startSec, tras el cual debe detenerse el procesamiento.

Tipo: Doble
Obligatorio: no
Valores válidos: 0: duración del contenido multimedia
Valor predeterminado: duración del contenido multimedia
Tipos de entrada compatibles: vídeo, audio

Ejemplo:

startSec: 5
lengthSec: 20
Resultado: el clip se procesa entre las 0:05 y las 0:25 (5 segundos + 20 segundos).

La duración de cada clip para el que el modelo debe generar una incrustación.

Tipo: Doble
Obligatorio: no
Parámetros de valor: 2 - 10. Debe ser mayor o igual que minClipSec.
Valor predeterminado: depende del tipo de contenido multimedia:
- Vídeo: Dividido dinámicamente por la detección del límite del tiro.
- Audio: dividido en partes iguales con segmentos lo más próximos posible a 10 segundos.
  
  Ejemplos:
  - Un clip de 50 segundos se divide en 5 segmentos de 10 segundos.
  - Un clip de 16 segundos se divide en 2 segmentos de 8 segundos.
Tipos de entrada compatibles: vídeo, audio
Notas: Debe ser mayor o igual que minClipSec.

Establece un valor mínimo para cada clip en segundos.

Tipo: int
Obligatorio: no
Parámetros de valor: intervalo: 1-5
Valor predeterminado: 4
Tipos de entrada compatibles: vídeo
Notas: Debe ser menor o igual que useFixedLengthSec.

Respuesta de TwelveLabs Marengo Embed 2.7

La ubicación de las incrustaciones de salida y los metadatos asociados depende del método de invocación:

InvokeModel— En el cuerpo de la respuesta.
StartAsyncInvoke— En el segmento S3 definido en els3OutputDataConfig, una vez finalizado el trabajo de invocación asíncrona.

Si hay varios vectores de incrustaciones, la salida es una lista de objetos, cada uno de los cuales contiene un vector y sus metadatos asociados.

El formato del vector de incrustaciones de salida es el siguiente:


{
    "embedding": ["string"],
    "embeddingOption": "visual-text" | "visual-image" | "audio",
    "startSec": double,
    "endsec": double
}

Amplíe las siguientes secciones para obtener detalles sobre los parámetros de respuesta:

Representación vectorial de la incrustaciones de entrada.

Tipo: lista de valores double

El tipo de incrustaciones.

Tipo: cadena
Valores posibles:
- visual-text: incrustaciones visuales optimizadas para la búsqueda de texto.
- visual-image: incrustaciones visuales optimizadas para la búsqueda de imágenes.
- audio: incrustaciones del audio en el vídeo.
Tipos de entrada compatibles: vídeo

El desplazamiento inicial del clip.

Tipo: Doble
Tipos de entrada compatibles: vídeo, audio

El desplazamiento final del clip, en segundos.

Tipo: Doble
Tipos de entrada compatibles: vídeo, audio

Ejemplos de código de TwelveLabs Marengo Embed 2.7

En esta sección se muestra cómo utilizar el modelo TwelveLabs Marengo Embed 2.7 con diferentes tipos de entrada mediante Python. Los ejemplos muestran cómo definir la entrada específica del modelo y ejecutar las invocaciones del modelo.

nota

InvokeModel solo admite la entrada de texto e imagen. Para la entrada de vídeo y audio, utilice StartAsyncInvoke.

Reúna su código con los siguientes pasos:

1. Defina la entrada específica del modelo

Defina la entrada específica del modelo en función del tipo de entrada:

Text


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-2-7-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-2-7-v1:0"
                            
model_input = {
  "inputType": "text",
  "inputText": "man walking a dog"
}

Inline image


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-2-7-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-2-7-v1:0"

model_input = {
   "inputType": "image",
   "mediaSource": {
      "base64String": "example-base64-image"
   }
}

S3 image


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-2-7-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-2-7-v1:0"

model_input = {
     "inputType": "image",
     "mediaSource": {
          "s3Location": {
               "uri": "s3://amzn-s3-demo-bucket/my_image.png",
               "bucketOwner": "123456789012"
          }
     }
}

Inline video


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-2-7-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-2-7-v1:0"

model_input = {
    "inputType": "video",
    "mediaSource": {
        "base64String": "base_64_encoded_string_of_video"
    },
    "startSec": 0,
    "lengthSec": 13,
    "useFixedLengthSec": 5,
    "embeddingOption": [
        "visual-text", 
        "audio"
    ]
}

S3 video


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-2-7-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-2-7-v1:0"

model_input = {
    "inputType": "video",
    "mediaSource": {
        "s3Location": {
            "uri": "amzn-s3-demo-bucket/my-video.mp4",
            "bucketOwner": "123456789012"
        }
    },
    "startSec": 0,
    "lengthSec": 13,
    "useFixedLengthSec": 5,
    "embeddingOption": [
        "visual-text", 
        "audio"
    ]
}

Inline audio


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-2-7-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-2-7-v1:0"

model_input = {
    "inputType": "audio", 
    "mediaSource": { 
        "base64String": "base_64_encoded_string_of_audio"
    },
    "startSec": 0,
    "lengthSec": 13,
    "useFixedLengthSec": 10
}

S3 audio


# Create the model-specific input
model_id = "twelvelabs.marengo-embed-2-7-v1:0"
# Replace the us prefix depending on your region
inference_profile_id = "us.twelvelabs.marengo-embed-2-7-v1:0"

model_input = {
    "inputType": "audio",
    "mediaSource": {  
        "s3Location": { 
            "uri": "s3://amzn-s3-demo-bucket/my-audio.wav", 
            "bucketOwner": "123456789012" 
        }
    },
    "startSec": 0,
    "lengthSec": 13,
    "useFixedLengthSec": 10
}

2. Ejecute la invocación del modelo utilizando la entrada del modelo

A continuación, añada el fragmento de código que corresponda al método de invocación del modelo que prefiera.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

TwelveLabs Pegasus 1.2

TwelveLabs Marengo Embed 3.0