Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
TwelveLabs Marengo Embed 3.0
Il TwelveLabs Marengo Embed 3.0 modello genera incorporamenti avanzati da input video, testo, audio, immagini o input multipli (testo con più immagini). Quest'ultima versione offre prestazioni e precisione migliorate per la ricerca di similarità, il clustering e altre attività di apprendimento automatico.
Fornitore: TwelveLabs
ID modello: twelvelabs.marengo-embed-3-0-v1:0
Marengo Embed 3.0 offre diversi miglioramenti chiave:
Capacità di elaborazione video estesa: elabora fino a 4 ore di contenuti video e audio. I file possono pesare fino a 6 GB, ovvero il doppio della capacità delle versioni precedenti. Ciò lo rende ideale per analizzare eventi sportivi completi, video di allenamento prolungati e produzioni cinematografiche complete.
Analisi sportiva avanzata: il modello offre miglioramenti significativi. Fornisce una migliore comprensione delle dinamiche di gioco, dei movimenti dei giocatori e del rilevamento degli eventi.
Supporto multilingue globale: funzionalità linguistiche estese da 12 a 36 lingue. Ciò consente alle organizzazioni globali di creare sistemi di ricerca e recupero unificati che funzionano perfettamente in diverse regioni e mercati.
Precisione della ricerca multimodale: combina immagini e testo descrittivo in un'unica richiesta di incorporamento. Ciò unisce la somiglianza visiva con la comprensione semantica per fornire risultati di ricerca più accurati e contestualmente pertinenti.
Dimensione di incorporamento ridotta: ridotta da 1024 a 512, il che può aiutare a ridurre i costi di archiviazione.
Il modello TwelveLabs Marengo Embed 3.0 supporta le operazioni di runtime per Amazon Bedrock riportate nella tabella seguente.
-
Per ulteriori informazioni sui casi d’uso per i diversi metodi API, consultare Effettuare richieste di inferenza.
-
Per ulteriori informazioni sui tipi di modello, consultare Effettuare richieste di inferenza.
-
Per un elenco degli ID dei modelli e per visualizzare i modelli e AWS le regioni supportatiTwelveLabs Marengo Embed 3.0, cercate il modello nella tabella all'indirizzo. Modelli di fondazione supportati in Amazon Bedrock
-
Per un elenco completo degli ID dei profili di inferenza, vedere Regioni e modelli supportati per i profili di inferenza. L'ID del profilo di inferenza si basa sulla AWS regione.
-
| Operazione API | Tipi di modelli supportati | Modalità di input | Modalità di output |
|---|---|---|---|
|
InvokeModel |
Stati Uniti orientali (Virginia settentrionale): modelli di base e profili di inferenza Europa (Irlanda) — Profili di inferenza |
Testo Immagine Multi-input (testo con più immagini) Nota: sono supportati anche testo e immagini interlacciati. |
Embedding |
| StartAsyncInvoke |
Stati Uniti orientali (Virginia settentrionale) — Modelli base Europa (Irlanda) — Modelli base Asia Pacifico (Seoul) - Modelli base |
Video Audio Immagine Testo Multi-input (testo con più immagini) Nota: sono supportati anche testo e immagini interlacciati. |
Embedding |
Nota
Utilizzare InvokeModel per generare embedding per la query di ricerca. Utilizzare StartAsyncInvoke per generare embedding per risorse su larga scala.
All’input si applicano i seguenti limiti:
| Modalità di input | Massimo |
|---|---|
| Testo | 500 gettoni |
| Immagine | 5 MB per immagine |
| Video (S3) | 6 GB, durata 4 ore |
| Audio (S3) | 6 GB, durata 4 ore |
Nota
Se si definiscono audio o video inline utilizzando la codifica base64, assicurarsi che il payload del corpo della richiesta non superi la quota di invocazione del modello Amazon Bedrock di 25 MB.
Argomenti
TwelveLabs Marengo Embed 3.0 parametri richiesta
Quando si effettua una richiesta, il campo in cui viene specificato l’input specifico del modello dipende dall’operazione dell’API:
-
InvokeModel— Nella richiesta.
body -
StartAsyncInvoke— Nel
modelInputcampo del corpo della richiesta.
Il formato dell’input del modello dipende dalla modalità di input:
Espandi le seguenti sezioni per ulteriori informazioni sui parametri di input:
Modalità per l’embedding.
Tipo: stringa
Obbligatorio: sì
-
Valori validi:
text|image|text_image|audio|video|multi_input
Testo da incorporare.
▬Tipo: stringa
Obbligatorio: sì (per i tipi di input compatibili)
-
Tipi di input compatibili: testo
Contiene informazioni sull’origine multimediale.
Tipo: oggetto
Obbligatorio: sì (se il tipo è compatibile)
-
Tipi di input compatibili: immagine, video, audio
Il formato dell'mediaSourceoggetto nel corpo della richiesta dipende dal fatto che il supporto sia definito come Base64-encoded stringa o come posizione S3.
-
Base64-encoded stringa
{ "mediaSource": { "base64String": "base64-encoded string" } }-
base64String— La Base64-encoded stringa per il file multimediale.
-
-
Posizione S3: specifica l'URI S3 e il proprietario del bucket.
{ "s3Location": { "uri": "string", "bucketOwner": "string" } }-
uri: URI S3 contenente il file multimediale. -
bucketOwner— L'ID dell' AWS account del proprietario del bucket S3.
-
Specifica i tipi di embedding da recuperare.
Tipo: elenco
Obbligatorio: no
Valori validi per i membri dell’elenco:
-
visual— Incorporamenti visivi tratti dal video. -
audio: embedding dell’audio nel video. -
transcription— Incorporamenti del testo trascritto.
-
-
Valore predefinito:
Video: ["visivo», «audio», «trascrizione"]
Audio: ["audio», «trascrizione"]
-
Tipi di input compatibili: video, audio
Specifica l'ambito degli incorporamenti da recuperare.
Tipo: elenco
Obbligatorio: no
Valori validi per i membri dell’elenco:
-
clip— Restituisce gli incorporamenti per ogni clip. -
asset— Restituisce gli incorporamenti per l'intera risorsa.
-
-
Tipi di input compatibili: video, audio
Punto temporale in secondi del clip in cui deve iniziare l’elaborazione.
Tipo: numero a doppia precisione
Obbligatorio: no
Valore minimo: 0
Valore predefinito: 0
-
Tipi di input compatibili: video, audio
Il punto temporale in secondi in cui deve terminare l'elaborazione.
Tipo: numero a doppia precisione
Obbligatorio: no
Valore minimo: StartSec + lunghezza del segmento
Valore massimo: durata del file multimediale
Valore predefinito: durata del file multimediale
-
Tipi di input compatibili: video, audio
Definisce il modo in cui i file multimediali vengono suddivisi in segmenti per la generazione di incorporamenti.
Tipo: oggetto
Obbligatorio: no
-
Tipi di input compatibili: video, audio
L'oggetto di segmentazione contiene un method campo e parametri specifici del metodo:
-
method— Il metodo di segmentazione da utilizzare. Valori validi:dynamic|fixed -
dynamic— Per i video, utilizza il rilevamento dei limiti delle riprese per dividere i contenuti in modo dinamico. Contiene:-
minDurationSec— Durata minima per ogni segmento in secondi. Tipo: Integer. Intervallo: 1-5. Valore predefinito: 4.
-
-
fixed— Divide il contenuto in segmenti di uguale durata. Contiene:-
durationSec— Durata di ogni segmento in secondi. Tipo: Integer. Intervallo: 1-10. Valore predefinito: 6.
-
Comportamento predefinito:
-
Video: utilizza la segmentazione dinamica con il rilevamento dei limiti delle riprese.
-
Audio: utilizza la segmentazione fissa. Il contenuto viene suddiviso nel modo più uniforme possibile con segmenti di durata prossima ai 10 secondi.
Contiene la configurazione a input multiplo per combinare testo con più immagini in un'unica richiesta di incorporamento. Utilizzate questo tipo di input quando desiderate creare incorporamenti che catturino la relazione tra testo e più immagini.
Tipo: oggetto
Obbligatorio: Sì (quando
inputTypeèmulti_input)
L'oggetto multi_input include i seguenti campi:
-
inputText— (Facoltativo) Interrogazione di testo con sintassi segnaposto.<@name>Da utilizzare per fare riferimento a fonti multimediali (ad esempio,)."<@img1> walking with <@img2>"Se dotato di segnaposti, ciascuno<@name>deve corrispondere a un.mediaSources[].nameMassimo: 500 gettoni inclusi i segnaposti. -
mediaSources— (Obbligatorio) Matrice di oggetti sorgente multimediali. Ogni fonte multimediale contiene dati di immagine. L'array deve contenere almeno un elemento.-
name— (Condizionale) Identificatore univoco per questa fonte multimediale. Obbligatorio solo seinputTextutilizza segnaposti<@name>. Se fornito, deve corrispondere a un segnaposto ininputText(senza i<@caratteri e).> -
mediaType— (Obbligatorio) Tipo di supporto. Attualmento solo"image"è supportato. -
base64String— payload Base64-encoded dell'immagine. Massimo: 5 MB per immagine. Fornisci esattamente uno deibase64Stringnostris3Location. -
s3Location— Oggetto di localizzazione S3 contenenteuri(URI S3) ebucketOwner(ID account a 12 cifre AWS ). Massimo: 5 MB per immagine. Fornisci esattamente uno deibase64Stringnostris3Location.
-
Ordinazione dei media:
Se
inputTextcontiene<@name>segnaposti, l'ordine è determinato dall'ordine dei segnaposto in.inputTextSe
inputTextè omesso o è vuoto, l'ordine predefinito è l'ordine dell'array di.mediaSources
Controlla il modo in cui gli incorporamenti vengono aggregati tra le diverse modalità.
Tipo: elenco
Obbligatorio: no
Valori validi per i membri dell’elenco:
-
separate_embedding— Restituisce gli incorporamenti per ciascuna modalità separatamente (video, audio, trascrizione). -
fused_embedding— Restituisce una fusione ponderata di più modalità di incorporamento.
-
-
Valore predefinito: ["separate_embedding"]
-
Tipi di input compatibili: video, audio
Vincoli:
Per i video:
fused_embeddingrichiede almeno 2 tipi di incorporamento.embeddingOptionPer l'audio:
fused_embeddingrichiede entrambiaudiogli ingressitranscription.embeddingOption
Identificatore univoco per la richiesta di inferenza.
▬Tipo: stringa
Obbligatorio: no
TwelveLabs Marengo Embed 3.0 risposta
La posizione degli embedding di output e dei metadati associati dipende dal metodo di invocazione:
-
InvokeModel — Nel corpo di risposta.
-
StartAsyncInvoke — Nel bucket S3 definito in
s3OutputDataConfig, dopo il completamento del processo di invocazione asincrona.
Se sono presenti più vettori di embedding, l’output è un elenco di oggetti, ciascuno contenente un vettore e i relativi metadati associati.
Il formato del vettore degli embedding di output è il seguente:
{ "data": { "embedding": [ 0.111, 0.234, ... ], "embeddingOption": ["visual", "audio", "transcription", "fused" (for video input) | "audio", "transcription", "fused" (for audio input)], "embeddingScope": ["asset" | "clip"], "startSec": 0, "endSec": 4.2 } }
Gli incorporamenti vengono restituiti come una matrice di float.
La posizione in cui vedi questa risposta dipende dal metodo API che hai utilizzato:
-
InvokeModel — Viene visualizzato nel corpo della risposta.
-
StartAsyncInvoke — Viene visualizzato nella posizione S3 specificata nella richiesta. La risposta restituisce un
invocationArn. Puoi usarlo per ottenere metadati sulla chiamata asincrona. Ciò include lo stato e la posizione S3 in cui vengono scritti i risultati.
Espandere le seguenti sezioni per ulteriori informazioni sui parametri della risposta:
Rappresentazione dei vettori di embedding dell’input.
Tipo: elenco di numeri a doppia precisione
Tipo di embedding.
▬Tipo: stringa
Valori possibili:
-
visivo: incorporamenti visivi del video.
-
audio: incorporamenti dell'audio nel video.
-
trascrizione — Incorporamenti del testo trascritto.
-
fused — Fusione ponderata di più tipi di incorporamento. Restituito solo se
embeddingTypeincluso"fused_embedding"nella richiesta.
-
-
Tipi di input compatibili: video, audio
Nota
Non applicabile ai tipi di input text, image, text_image e multi_input. Questi restituiscono un singolo incorporamento senza il campo. embeddingOption
Specifica l'ambito degli incorporamenti da recuperare.
▬Tipo: stringa
È possibile includere uno o più dei seguenti valori:
-
clip: restituisce gli incorporamenti per ogni clip.
-
asset: restituisce gli incorporamenti per l'intera risorsa.
Offset iniziale del clip.
Tipo: numero a doppia precisione
-
Tipi di input compatibili: video, audio
L'offset finale della clip. Non applicabile per gli incorporamenti di testo, immagine, text_image e multi_input.
Tipo: numero a doppia precisione
-
Tipi di input compatibili: video, audio
TwelveLabs Marengo Embed 3.0 esempi di codice
Questa sezione mostra come utilizzare il modello TwelveLabs Marengo Embed 3.0 con diversi tipi di input utilizzando Python. Gli esempi mostrano come definire l'input specifico del modello ed eseguire le chiamate del modello.
Nota
InvokeModel supporta testo, immagini, input multipli e testo con input interlacciato da immagini. Per l'input video e audio, usa. StartAsyncInvoke
Assemblare il codice seguendo questa procedura:
1. Definisci l’input specifico del modello
Definire l’input specifico del modello in base al tipo di input:
2. Eseguire l’invocazione del modello utilizzando l’input del modello
Poi aggiungere il frammento di codice che corrisponde al metodo di invocazione del modello scelto.