Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
TwelveLabs Marengo Embed 2.7
Il modello TwelveLabs Marengo Embed 2.7 genera embedding da input video, testo, audio o immagini. Questi embedding possono essere utilizzati per la ricerca di similarità, il clustering e altre attività di machine learning.
Fornitore: TwelveLabs
ID modello: twelvelabs.marengo-embed-2-7-v1:0
Il modello TwelveLabs Marengo Embed 2.7 supporta le operazioni di runtime per Amazon Bedrock riportate nella tabella seguente.
-
Per ulteriori informazioni sui casi d’uso per i diversi metodi API, consultare Informazioni sui casi d’uso per diversi metodi di inferenza del modello.
-
Per ulteriori informazioni sui tipi di modello, consultare Funzionamento dell’inferenza in Amazon Bedrock.
-
Per un elenco di modelli IDs e per visualizzare i modelli e AWS le regioni supportati TwelveLabs Marengo Embed 2.7 in, cercate il modello nella tabella all'indirizzoModelli di fondazione supportati in Amazon Bedrock.
-
Per un elenco completo dei profili di inferenza IDs, vedereRegioni e modelli supportati per i profili di inferenza. L'ID del profilo di inferenza si basa sulla AWS regione.
-
| Operazione API | Tipi di modelli supportati | Modalità di input | Modalità di output |
|---|---|---|---|
|
InvokeModel |
Profili di inferenza |
Testo Immagine |
Embedding |
| StartAsyncInvoke | Modelli base |
Video Audio Immagine Testo |
Embedding |
Nota
Utilizzare InvokeModel per generare embedding per la query di ricerca. Utilizzare StartAsyncInvoke per generare embedding per risorse su larga scala.
All’input si applicano i seguenti limiti:
| Modalità di input | Massimo |
|---|---|
| Testo | 77 gettoni |
| Immagine | 5 MB |
| Video (S3) | 2 GB |
| Audio (S3) | 2 GB |
Nota
Se si definiscono audio o video inline utilizzando la codifica base64, assicurarsi che il payload del corpo della richiesta non superi la quota di invocazione del modello Amazon Bedrock di 25 MB.
Argomenti
Parametri delle richieste di TwelveLabs Marengo Embed 2.7
Quando si effettua una richiesta, il campo in cui viene specificato l’input specifico del modello dipende dall’operazione dell’API:
-
InvokeModel— Nella richiesta
body. -
StartAsyncInvoke— Nel
modelInputcampo del corpo della richiesta.
Il formato dell’input del modello dipende dalla modalità di input:
Espandi le seguenti sezioni per ulteriori informazioni sui parametri di input:
Modalità per l’embedding.
Tipo: stringa
Obbligatorio: sì
-
Valori validi:
video|text|audio|image
Testo da incorporare.
▬Tipo: stringa
Obbligatorio: sì (per i tipi di input compatibili)
-
Tipi di input compatibili: testo
Specifica in che modo la piattaforma tronca il testo.
▬Tipo: stringa
Obbligatorio: no
Valori validi:
-
end: tronca la fine del testo. -
none: restituisce un errore se il testo supera il limite.
-
Valore predefinito: end
-
Tipi di input compatibili: testo
Contiene informazioni sull’origine multimediale.
Tipo: oggetto
Obbligatorio: sì (se il tipo è compatibile)
-
Tipi di input compatibili: immagine, video, audio
Il formato dell’oggetto mediaSource nel corpo della richiesta dipende se il file multimediale è definito come stringa codificata in Base64 o come posizione S3.
-
Stringa con codifica Base64
{ "mediaSource": { "base64String": "base64-encoded string" } }-
base64String: stringa con codifica Base64 per il file multimediale.
-
-
Posizione S3: specifica l'URI S3 e il proprietario del bucket.
{ "s3Location": { "uri": "string", "bucketOwner": "string" } }-
uri: URI S3 contenente il file multimediale. -
bucketOwner— L'ID dell'AWSaccount del proprietario del bucket S3.
-
Specifica i tipi di embedding da recuperare.
Tipo: elenco
Obbligatorio: no
Valori validi per i membri dell’elenco:
-
visual-text: embedding visivi ottimizzati per la ricerca di testo. -
visual-image: embedding visivi ottimizzati per la ricerca di immagine. -
audio: embedding dell’audio nel video.
-
Valore predefinito: [“visual-text”, “visual-image”, “audio”]
-
Tipi di input compatibili: video, audio
Punto temporale in secondi del clip in cui deve iniziare l’elaborazione.
Tipo: numero a doppia precisione
Obbligatorio: no
Valore minimo: 0
Valore predefinito: 0
-
Tipi di input compatibili: video, audio
Tempo in secondi, contando a partire dal momento temporale startSec, dopo il quale l’elaborazione dovrebbe interrompersi.
Tipo: numero a doppia precisione
Obbligatorio: no
Valori validi: 0 - Durata del file multimediale
Valore predefinito: durata del file multimediale
-
Tipi di input compatibili: video, audio
Esempio:
-
startSec: 5
-
lengthSec: 20
-
Risultato: la clip viene elaborata da 0:05 a 0:25 (5 secondi + 20 secondi).
Durata di ogni clip per il quale il modello deve generare un embedding.
Tipo: numero a doppia precisione
Obbligatorio: no
Parametri del valore: 2 - 10. Deve essere maggiore o uguale a
minClipSec.Valore predefinito: dipende dal tipo di file multimediale:
-
Video: diviso dinamicamente mediante il rilevamento dei confini del colpo.
-
Audio: diviso in modo uniforme con segmenti il più vicini possibile a 10 secondi.
Esempi:
-
Una clip di 50 secondi è divisa in 5 segmenti da 10 secondi.
-
Una clip di 16 secondi è divisa in 2 segmenti da 8 secondi.
-
-
-
Tipi di input compatibili: video, audio
Note: deve essere maggiore o uguale a
minClipSec.
Imposta un valore minimo per ogni clip in secondi.
Type: int
Obbligatorio: no
Parametri del valore: intervallo: 1-5
Valore predefinito: 4
-
Tipi di input compatibili: video
Note: deve essere maggiore o uguale a
useFixedLengthSec.
Risposta di TwelveLabs Marengo Embed 2.7
La posizione degli embedding di output e dei metadati associati dipende dal metodo di invocazione:
-
InvokeModel— Nel corpo della risposta.
-
StartAsyncInvoke— Nel bucket S3 definito in
s3OutputDataConfig, dopo il completamento del processo di invocazione asincrona.
Se sono presenti più vettori di embedding, l’output è un elenco di oggetti, ciascuno contenente un vettore e i relativi metadati associati.
Il formato del vettore degli embedding di output è il seguente:
{ "embedding": ["string"], "embeddingOption": "visual-text" | "visual-image" | "audio", "startSec":double, "endsec":double}
Espandere le seguenti sezioni per ulteriori informazioni sui parametri della risposta:
Rappresentazione dei vettori di embedding dell’input.
Tipo: elenco di numeri a doppia precisione
Tipo di embedding.
▬Tipo: stringa
Valori possibili:
-
visual-text: embedding visivi ottimizzati per la ricerca di testo. -
visual-image: embedding visivi ottimizzati per la ricerca di immagine. -
audio: embedding dell’audio nel video.
-
-
Tipi di input compatibili: video
Offset iniziale del clip.
Tipo: numero a doppia precisione
-
Tipi di input compatibili: video, audio
Offset finale del clip, in secondi.
Tipo: numero a doppia precisione
-
Tipi di input compatibili: video, audio
Esempi di codice di TwelveLabs Marengo Embed 2.7
Questa sezione mostra come utilizzare il modello TwelveLabs Marengo Embed 2.7 con diversi tipi di input utilizzando Python. Gli esempi mostrano come definire l'input specifico del modello ed eseguire le chiamate del modello.
Nota
InvokeModel supporta solo l'immissione di testo e immagini. Per l'ingresso video e audio, usa StartAsyncInvoke.
Assemblare il codice seguendo questa procedura:
1. Definisci l’input specifico del modello
Definire l’input specifico del modello in base al tipo di input:
2. Eseguire l’invocazione del modello utilizzando l’input del modello
Poi aggiungere il frammento di codice che corrisponde al metodo di invocazione del modello scelto.