Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
TwelveLabs Marengo Embed 2.7
Il TwelveLabs Marengo Embed 2.7 modello genera incorporamenti da input video, testo, audio o immagini. Questi incorporamenti possono essere utilizzati per la ricerca di similarità, il clustering e altre attività di apprendimento automatico. Il modello supporta l'inferenza asincrona tramite l'API. StartAsyncInvoke
Fornitore: TwelveLabs
Categorie: incorporamenti, multimodali
ID del modello —
twelvelabs.marengo-embed-2-7-v1:0
Modalità di input: video, testo, audio, immagine
Modalità di output: incorporamenti
Dimensione massima del video: video di 2 ore (dimensione del file < 2 GB)
TwelveLabs Marengo Embed 2.7parametri di richiesta
La tabella seguente descrive i parametri di input per il TwelveLabs Marengo Embed 2.7 modello:
Campo | Tipo | Campo obbligatorio | Descrizione |
---|---|---|---|
inputType |
stringa | Sì | Modalità di incorporamento. Valori validi: video , text , audio , image . |
inputText |
string | No | Testo da incorporare quando inputType lo è. text Necessario se inputType è text . L'immissione di testo non è disponibile tramite l'URI S3 ma solo tramite il inputText campo. |
startSec |
double | No | L'offset iniziale in secondi dall'inizio del video o dell'audio dove dovrebbe iniziare l'elaborazione. Specificare 0 significa iniziare dall'inizio del file multimediale. Valore predefinito: 0, Min: 0. |
lengthSec |
double | No | La durata in secondi del video o dell'audio da cui avverrà l'elaborazionestartSec . Impostazione predefinita: durata del file multimediale, massima: durata del file multimediale. |
useFixedLengthSec |
double | No | Solo per audio i video nostri ingressi. La durata fissa desiderata in secondi per ogni clip per cui la piattaforma genera un incorporamento. Min: 2, Max: 10. Se manca, per il video: i segmenti vengono divisi dinamicamente mediante il rilevamento dei limiti dell'inquadratura; per l'audio: i segmenti vengono divisi in modo uniforme in modo da avere una durata massima di 10 secondi (quindi se si tratta di una clip di 50 secondi, saranno 5 segmenti da 10 secondi ciascuno, mentre se si tratta di una clip di 16 secondi saranno 2 segmenti da 8 secondi ciascuno). |
textTruncate |
string | No | Solo per input. text Speciifica in che modo la piattaforma tronca il testo che supera i 77 token. Valori validi: end (tronca la fine del testo), (restituisce un errore se il testo supera il none limite). Default: end . |
embeddingOption |
elenco | No | Solo per inputvideo . Specifica i tipi di incorporamenti da recuperare. Valori validi: visual-text (incorporamenti visivi ottimizzati per la ricerca di testo), visual-image (incorporamenti visivi ottimizzati per la ricerca di immagini), audio (incorporamenti audio). Se non viene fornito, vengono restituiti tutti gli incorporamenti disponibili. |
mediaSource |
oggetto | No | Descrive la fonte multimediale. Obbligatorio per i tipi di input: image video , eaudio . |
mediaSource.base64String |
string | No | Stringa di byte codificata in Base64 per il supporto. Massimo: 36 MB. Uno base64String o s3Location deve essere fornito se mediaSource utilizzato. |
mediaSource.s3Location.uri |
string | No | URI S3 da cui è possibile scaricare i file multimediali. Per i video, durata massima: 2 ore (dimensione del file < 2 GB). Richiesto se si utilizzas3Location . |
mediaSource.s3Location.bucketOwner |
string | No | ID dell'account AWS del proprietario del bucket. |
minClipSec |
int | No | Solo a scopo video di input. Imposta un secondo minimo per la clip. Nota: useFixedLengthSec deve essere maggiore di questo valore. Predefinito: 4, Min: 1, Max: 5. |
Campi di risposta TwelveLabs Marengo Embed 2.7
La tabella seguente descrive i campi di output per il TwelveLabs Marengo Embed 2.7 modello:
Campo | Tipo | Descrizione |
---|---|---|
embedding |
Elenco dei doppi | Incorporamento di valori |
embeddingOption |
string | Il tipo di incorporamento per l'output multivettoriale (applicabile solo per i video). Valori validi: visual-text (incorporamenti visivi strettamente allineati con gli incorporamenti di testo), visual-image (incorporamenti visivi strettamente allineati con gli incorporamenti di immagini), (incorporamenti audio). audio |
startSec |
double | L'offset iniziale della clip. Non applicabile per gli incorporamenti di testo e immagini. |
endSec |
double | L'offset finale della clip. Non applicabile per gli incorporamenti di testo e immagini. |
TwelveLabs Marengo Embed 2.7richiesta e risposta
I seguenti esempi mostrano come utilizzare il TwelveLabs Marengo Embed 2.7 modello con diversi tipi di input. Tieni presente che TwelveLabs Marengo Embed 2.7 utilizza l' StartAsyncInvoke API per l'elaborazione.