Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
TwelveLabs Marengo Embed 2.7
Il TwelveLabs Marengo Embed 2.7 modello genera incorporamenti da input video, testo, audio o immagini. Questi incorporamenti possono essere utilizzati per la ricerca di similarità, il clustering e altre attività di apprendimento automatico.
Fornitore: TwelveLabs
ID modello — twelvelabs.marengo-embed-2-7-v1:0
Il TwelveLabs Marengo Embed 2.7 modello supporta le operazioni di Amazon Bedrock Runtime riportate nella tabella seguente.
-
Per ulteriori informazioni sui casi d'uso per diversi metodi API, consultaScopri i casi d'uso per diversi metodi di inferenza dei modelli.
-
Per ulteriori informazioni sui tipi di modello, vedereCome funziona l'inferenza in Amazon Bedrock.
-
Per un elenco di modelli IDs e per visualizzare i modelli e AWS le regioni supportati TwelveLabs Marengo Embed 2.7 in, cercate il modello nella tabella all'indirizzoModelli di fondazione supportati in Amazon Bedrock.
-
Per un elenco completo dei profili di inferenza IDs, vedereRegioni e modelli supportati per i profili di inferenza. L'ID del profilo di inferenza si basa sulla AWS regione.
-
| Operazione API | Tipi di modelli supportati | Modalità di input | Modalità di uscita |
|---|---|---|---|
|
InvokeModel |
Profili di inferenza |
Testo Immagine |
Incorporamento |
| StartAsyncInvoke | Modelli base |
Video Audio Immagine Testo |
Incorporamento |
Nota
Utilizzato InvokeModel per generare incorporamenti per le query di ricerca. StartAsyncInvokeUtilizzato per generare incorporamenti per risorse su larga scala.
Le seguenti quote si applicano all'input:
| Modalità di input | Massimo |
|---|---|
| Testo | 77 gettoni |
| Immagine | 5 MB |
| Video (S3) | 2 GB |
| Audio (S3) | 2 GB |
Nota
Se definisci audio o video in linea utilizzando la codifica base64, assicurati che il payload del corpo della richiesta non superi la quota di invocazione del modello Amazon Bedrock di 25 MB.
Argomenti
TwelveLabs Marengo Embed 2.7parametri di richiesta
Quando si effettua una richiesta, il campo in cui viene specificato l'input specifico del modello dipende dal funzionamento dell'API:
-
InvokeModel— Nella richiesta.
body -
StartAsyncInvoke— Nel
modelInputcampo del corpo della richiesta.
Il formato dell'input del modello dipende dalla modalità di input:
Espandi le seguenti sezioni per i dettagli sui parametri di input:
Modalità di incorporamento.
▬Tipo: stringa
Campo obbligatorio: sì
-
Valori validi:
video|text|audio|image
Testo da incorporare.
▬Tipo: stringa
Obbligatorio: Sì (per i tipi di input compatibili)
-
Tipi di input compatibili: Testo
Specifica in che modo la piattaforma tronca il testo.
▬Tipo: stringa
Required: No
Valori validi:
-
end— Tronca la fine del testo. -
none— Restituisce un errore se il testo supera il limite
-
Valore predefinito: end
-
Tipi di input compatibili: testo
Contiene informazioni sulla fonte multimediale.
Tipo: oggetto
Richiesto: Sì (se il tipo è compatibile)
-
Tipi di input compatibili: immagine, video, audio
Il formato dell'mediaSourceoggetto nel corpo della richiesta dipende dal fatto che il supporto sia definito come una stringa codificata in Base64 o come posizione S3.
-
Stringa codificata in Base64
{ "mediaSource": { "base64String": "base64-encoded string" } }-
base64String— La stringa con codifica Base64 per il supporto.
-
-
Posizione S3: specifica l'URI S3 e il
{ "s3Location": { "uri": "string", "bucketOwner": "string" } }-
uri— L'URI S3 contenente il file multimediale. -
bucketOwner— L'ID AWS dell'account del proprietario del bucket S3.
-
Speciifica quali tipi di incorporamenti recuperare.
Tipo: Elenco
Required: No
Valori validi per i membri della lista:
-
visual-text— Incorporamenti visivi ottimizzati per la ricerca di testo. -
visual-image— Incorporamenti visivi ottimizzati per la ricerca di immagini. -
audio— Incorporamenti dell'audio nel video.
-
Valore predefinito: ["visual-text», «visual-image», «audio"]
-
Tipi di input compatibili: Video, Audio
Il punto temporale in secondi del clip in cui deve iniziare l'elaborazione.
Tipo: double
Required: No
Valore minimo: 0
Valore predefinito: 0
-
Tipi di input compatibili: video, audio
Il tempo in secondi, contando a partire dal startSec momento temporale, dopo il quale l'elaborazione dovrebbe interrompersi.
Tipo: double
Required: No
Valori validi: 0 - Durata del file multimediale
Valore predefinito: durata del file multimediale
-
Tipi di input compatibili: video, audio
Ad esempio:
-
StartSec: 5
-
Lunghezza Sec: 20
-
Risultato: la clip verrà elaborata dalle 0:05 alle 0:20.
La durata di ogni clip per la quale il modello deve generare un incorporamento.
Tipo: double
Required: No
Parametri di valore: 2 - 10. Deve essere maggiore o uguale a
minClipSec.Valore predefinito: dipende dal tipo di supporto:
-
Video: diviso dinamicamente in base al rilevamento dei confini del colpo
-
Audio: diviso in modo uniforme e il più vicino possibile a 10. Ad esempio:
-
Una clip di 50 secondi verrà divisa in 5 segmenti da 10 secondi.
-
Una clip di 16 secondi verrà divisa in 2 segmenti da 8 secondi.
-
-
-
Tipi di ingresso compatibili: — Video, audio
Note: Deve essere maggiore o uguale a
minClipSec.
Imposta un valore minimo per ogni clip in secondi.
Tipo: int
Required: No
Parametri di valore: Intervallo: 1-5
Valore predefinito: 4
-
Tipi di input compatibili: Video
Note: deve essere inferiore o uguale a
useFixedLengthSec.
Risposta TwelveLabs Marengo Embed 2.7
La posizione degli incorporamenti di output e dei metadati associati dipende dal metodo di invocazione:
-
InvokeModel— Nel corpo della risposta.
-
StartAsyncInvoke— Nel bucket S3 definito in
s3OutputDataConfig, dopo il completamento del processo di invocazione asincrona.
Se sono presenti più vettori di incorporamento, l'output è un elenco di oggetti, ciascuno contenente un vettore e i relativi metadati associati.
Il formato del vettore degli incorporamenti di output è il seguente:
{ "embedding": ["string"], "embeddingOption": "visual-text" | "visual-image" | "audio", "startSec":double, "endsec":double}
Espandi le seguenti sezioni per i dettagli sui parametri di risposta:
Incorpora la rappresentazione vettoriale dell'input.
Tipo: Elenco dei doppi
Il tipo di incorporamenti.
▬Tipo: stringa
Valori possibili:
-
visual-text— Incorporamenti visivi ottimizzati per la ricerca di testo. -
visual-image— Incorporamenti visivi ottimizzati per la ricerca di immagini. -
audio— Incorporamenti dell'audio nel video.
-
-
Tipi di input compatibili: Video
L'offset iniziale della clip.
Tipo: double
-
Tipi di ingresso compatibili: video, audio
L'offset finale della clip, in secondi.
Tipo: double
-
Tipi di input compatibili: video, audio
Esempi di codice TwelveLabs Marengo Embed 2.7
Questa sezione mostra come usare il TwelveLabs Marengo Embed 2.7 modello con diversi tipi di input usando Python.
Nota
Attualmente supporta InvokeModel solo l'immissione di testo e immagini.
Compila il codice nei seguenti passaggi:
1. Definisci l'input specifico del modello
Definite l'input specifico del modello in base al tipo di input:
2. Esegui l'invocazione del modello utilizzando l'input del modello
Quindi, aggiungi il frammento di codice che corrisponde al metodo di invocazione del modello scelto.