TwelveLabs Marengo Embed 2.7 - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

TwelveLabs Marengo Embed 2.7

Il TwelveLabs Marengo Embed 2.7 modello genera incorporamenti da input video, testo, audio o immagini. Questi incorporamenti possono essere utilizzati per la ricerca di similarità, il clustering e altre attività di apprendimento automatico. Il modello supporta l'inferenza asincrona tramite l'API. StartAsyncInvoke

  • Fornitore: TwelveLabs

  • Categorie: incorporamenti, multimodali

  • ID del modello — twelvelabs.marengo-embed-2-7-v1:0

  • Modalità di input: video, testo, audio, immagine

  • Modalità di output: incorporamenti

  • Dimensione massima del video: video di 2 ore (dimensione del file < 2 GB)

TwelveLabs Marengo Embed 2.7parametri di richiesta

La tabella seguente descrive i parametri di input per il TwelveLabs Marengo Embed 2.7 modello:

TwelveLabs Marengo Embed 2.7parametri di richiesta
Campo Tipo Campo obbligatorio Descrizione
inputType stringa Modalità di incorporamento. Valori validi: video, text, audio, image.
inputText string No Testo da incorporare quando inputType lo è. text Necessario se inputType è text. L'immissione di testo non è disponibile tramite l'URI S3 ma solo tramite il inputText campo.
startSec double No L'offset iniziale in secondi dall'inizio del video o dell'audio dove dovrebbe iniziare l'elaborazione. Specificare 0 significa iniziare dall'inizio del file multimediale. Valore predefinito: 0, Min: 0.
lengthSec double No La durata in secondi del video o dell'audio da cui avverrà l'elaborazionestartSec. Impostazione predefinita: durata del file multimediale, massima: durata del file multimediale.
useFixedLengthSec double No Solo per audio i video nostri ingressi. La durata fissa desiderata in secondi per ogni clip per cui la piattaforma genera un incorporamento. Min: 2, Max: 10. Se manca, per il video: i segmenti vengono divisi dinamicamente mediante il rilevamento dei limiti dell'inquadratura; per l'audio: i segmenti vengono divisi in modo uniforme in modo da avere una durata massima di 10 secondi (quindi se si tratta di una clip di 50 secondi, saranno 5 segmenti da 10 secondi ciascuno, mentre se si tratta di una clip di 16 secondi saranno 2 segmenti da 8 secondi ciascuno).
textTruncate string No Solo per input. text Speciifica in che modo la piattaforma tronca il testo che supera i 77 token. Valori validi: end (tronca la fine del testo), (restituisce un errore se il testo supera il none limite). Default: end.
embeddingOption elenco No Solo per inputvideo. Specifica i tipi di incorporamenti da recuperare. Valori validi: visual-text (incorporamenti visivi ottimizzati per la ricerca di testo), visual-image (incorporamenti visivi ottimizzati per la ricerca di immagini), audio (incorporamenti audio). Se non viene fornito, vengono restituiti tutti gli incorporamenti disponibili.
mediaSource oggetto No Descrive la fonte multimediale. Obbligatorio per i tipi di input: imagevideo, eaudio.
mediaSource.base64String string No Stringa di byte codificata in Base64 per il supporto. Massimo: 36 MB. Uno base64String o s3Location deve essere fornito se mediaSource utilizzato.
mediaSource.s3Location.uri string No URI S3 da cui è possibile scaricare i file multimediali. Per i video, durata massima: 2 ore (dimensione del file < 2 GB). Richiesto se si utilizzas3Location.
mediaSource.s3Location.bucketOwner string No ID dell'account AWS del proprietario del bucket.
minClipSec int No Solo a scopo video di input. Imposta un secondo minimo per la clip. Nota: useFixedLengthSec deve essere maggiore di questo valore. Predefinito: 4, Min: 1, Max: 5.

Campi di risposta TwelveLabs Marengo Embed 2.7

La tabella seguente descrive i campi di output per il TwelveLabs Marengo Embed 2.7 modello:

Campi di risposta TwelveLabs Marengo Embed 2.7
Campo Tipo Descrizione
embedding Elenco dei doppi Incorporamento di valori
embeddingOption string Il tipo di incorporamento per l'output multivettoriale (applicabile solo per i video). Valori validi: visual-text (incorporamenti visivi strettamente allineati con gli incorporamenti di testo), visual-image (incorporamenti visivi strettamente allineati con gli incorporamenti di immagini), (incorporamenti audio). audio
startSec double L'offset iniziale della clip. Non applicabile per gli incorporamenti di testo e immagini.
endSec double L'offset finale della clip. Non applicabile per gli incorporamenti di testo e immagini.

TwelveLabs Marengo Embed 2.7richiesta e risposta

I seguenti esempi mostrano come utilizzare il TwelveLabs Marengo Embed 2.7 modello con diversi tipi di input. Tieni presente che TwelveLabs Marengo Embed 2.7 utilizza l' StartAsyncInvoke API per l'elaborazione.

Request

Gli esempi seguenti mostrano i formati di richiesta per il TwelveLabs Marengo Embed 2.7 modello che utilizza l' StartAsyncInvoke API.

Inserimento di testo:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "text", "inputText": "Spiderman flies through a street and catches a car with his web" }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Immissione dell'immagine con posizione S3:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "image", "mediaSource": { "s3Location": { "uri": "s3://your-image-object-s3-path", "bucketOwner": "your-image-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Immissione dell'immagine con codifica base64:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "image", "mediaSource": { "base64String": "base_64_encoded_string_of_image" } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Ingresso video con posizione S3:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "video", "mediaSource": { "s3Location": { "uri": "s3://your-video-object-s3-path", "bucketOwner": "your-video-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Ingresso video con codifica base64 e intervallo di tempo:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "video", "mediaSource": { "base64String": "base_64_encoded_string_of_video" }, "startSec": 0, "lengthSec": 13, "useFixedLengthSec": 5, "embeddingOption": ["visual-text", "audio"] }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Ingresso audio con posizione S3:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "audio", "mediaSource": { "s3Location": { "uri": "s3://your-audio-object-s3-path", "bucketOwner": "your-audio-object-s3-bucket-owner-account" } } }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }

Ingresso audio con codifica base64 e intervallo di tempo:

{ "modelId": "twelvelabs.marengo-embed-2-7-v1:0", "modelInput": { "inputType": "audio", "mediaSource": { "base64String": "base_64_encoded_string_of_audio" }, "startSec": 0, "lengthSec": 13, "useFixedLengthSec": 10 }, "outputDataConfig": { "s3OutputDataConfig": { "s3Uri": "s3://your-bucket-name" } } }
Response

Gli esempi seguenti mostrano i formati di risposta del modello. TwelveLabs Marengo Embed 2.7 Poiché questo modello utilizza StartAsyncInvoke, le risposte vengono inviate alla posizione di uscita S3 specificata inoutputDataConfig.

Risposta di incorporamento del testo:

{ "embedding": [0.123, -0.456, 0.789, ...], "embeddingOption": null, "startSec": null, "endSec": null }

Risposta all'incorporamento dell'immagine:

{ "embedding": [0.234, -0.567, 0.890, ...], "embeddingOption": null, "startSec": null, "endSec": null }

Risposta all'incorporamento del video (clip singola):

{ "embedding": [0.345, -0.678, 0.901, ...], "embeddingOption": "visual-text", "startSec": 0.0, "endSec": 5.0 }

Risposta all'incorporamento video (più clip con diversi tipi di incorporamento):

[ { "embedding": [0.123, -0.456, 0.789, ...], "embeddingOption": "visual-text", "startSec": 0.0, "endSec": 5.0 }, { "embedding": [0.234, -0.567, 0.890, ...], "embeddingOption": "visual-text", "startSec": 5.0, "endSec": 10.0 }, { "embedding": [0.345, -0.678, 0.901, ...], "embeddingOption": "audio", "startSec": 0.0, "endSec": 10.0 } ]

Risposta all'incorporamento audio (clip multiple):

[ { "embedding": [0.456, -0.789, 0.012, ...], "embeddingOption": null, "startSec": 0.0, "endSec": 10.0 }, { "embedding": [0.567, -0.890, 0.123, ...], "embeddingOption": null, "startSec": 10.0, "endSec": 13.0 } ]