Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Scelta dell'approccio di elaborazione multimodale
Amazon Bedrock Knowledge Bases offre due approcci per l'elaborazione di contenuti multimodali: Nova Multimodal Embeddings per ricerche di similarità visiva e Bedrock Data Automation (BDA) per l'elaborazione testuale di contenuti multimediali. Puoi anche utilizzare i modelli di base come parser se la modalità di input è l'immagine ma non l'audio o il video.
Questa sezione descrive l'utilizzo di Nova Multimodal Embeddings e BDA come approccio di elaborazione per contenuti multimodali. Ogni approccio è ottimizzato per diversi casi d'uso e modelli di query.
Argomenti
Approccio di elaborazione multimodale
La tabella seguente mostra un confronto tra Nova Multimodal Embeddings e BDA per l'elaborazione di contenuti multimodali.
| Caratteristica | Incorporamenti multimodali Nova | Bedrock Data Automation (BDA) |
|---|---|---|
| Metodo di elaborazione | Genera incorporamenti senza conversione intermedia del testo | Converte i file multimediali in testo, quindi crea incorporamenti |
| Tipi di query supportati | Interrogazioni di testo o di immagini | Solo interrogazioni di testo |
| Casi d'uso primari | Ricerca di somiglianze visive, abbinamento dei prodotti, scoperta di immagini | Trascrizione vocale, ricerca testuale, analisi dei contenuti |
| Funzionalità RAG | Limitato al solo contenuto testuale | RetrieveAndGenerateSupporto completo |
| Requisiti di storage | È richiesta una destinazione di archiviazione multimodale | Destinazione di archiviazione multimodale facoltativa, ma se non specificata, solo i dati di testo verranno elaborati da BDA. Per l'immissione non testuale, è necessario specificare una destinazione di archiviazione multimodale. |
Disponibilità regionale
| Incorporamenti multimodali Nova | Bedrock Data Automation (BDA) |
|---|---|
| Solo Stati Uniti orientali (Virginia settentrionale) |
|
Criteri di selezione per tipo di contenuto
Utilizza questa matrice decisionale per scegliere l'approccio di elaborazione appropriato in base ai requisiti dei contenuti e dei casi d'uso:
Nota
Se utilizzi il parser BDA con il modello Amazon Nova Multimodal Embeddings, il modello di incorporamento funzionerà come un modello di incorporamento di testo. Quando lavori con contenuti multimodali, utilizza uno degli approcci di elaborazione per ottenere i migliori risultati a seconda del caso d'uso.
| Content Type | Incorporamenti multimodali Nova | Bedrock Data Automation (BDA) |
|---|---|---|
| Cataloghi e immagini dei prodotti | Consigliato: consente la corrispondenza delle somiglianze visive e le interrogazioni basate su immagini | Limitato: estrae solo il testo tramite OCR |
| Registrazioni e chiamate delle riunioni | Non è possibile elaborare i contenuti vocali in modo significativo | Consigliato: fornisce la trascrizione completa del parlato e un testo ricercabile |
| Video formativi e didattici | Parziale: gestisce i contenuti visivi ma non la voce | Consigliato: acquisisce sia le trascrizioni vocali che le descrizioni visive |
| Registrazioni dell'assistenza clienti | Non consigliato: i contenuti vocali non possono essere elaborati in modo efficace | Consigliato: crea trascrizioni di conversazioni complete e ricercabili |
| Diagrammi e diagrammi tecnici | Consigliato: eccellente per la somiglianza visiva e la corrispondenza dei modelli | Limitato: estrae le etichette di testo ma non le relazioni visive |
Tipi di file e fonti di dati supportati
I tipi di file supportati dipendono dall'approccio di elaborazione scelto:
| Tipo di file | Incorporamenti multimodali Nova | Bedrock Data Automation (BDA) |
|---|---|---|
| Immagini | .png, .jpg, .jpeg, .gif, .webp | .png, .jpg, .jpeg |
| Audio | .mp3, .ogg, .wav | .amr, .flac, .m4a, .mp3, .ogg, .wav |
| Video | .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp | .mp4, .mov |
| Documenti | Elaborato come testo | .pdf (più l'estrazione del testo dalle immagini) |
Fonti di dati supportate
I contenuti multimodali sono supportati con le seguenti fonti di dati:
-
Amazon S3: supporto completo per tutti i tipi di file multimodali
-
Fonti dati personalizzate: Supporto per contenuti in linea con codifica base64 fino a 10 MB
Importante
Il recupero multimodale è attualmente disponibile solo per le fonti di dati Amazon S3. Altre fonti di dati (Confluence, Salesforce SharePoint, Web Crawler) non elaborano i file multimodali durante l'ingestione. Questi file vengono ignorati e non saranno disponibili per le query multimodali.
Funzionalità e limitazioni
- Incorporamenti multimodali Nova
-
Funzionalità chiave:
-
L'elaborazione multimodale nativa preserva il formato del contenuto originale per una corrispondenza ottimale delle somiglianze visive
-
Le query basate su immagini consentono agli utenti di caricare immagini e trovare contenuti visivamente simili
-
Prestazioni eccellenti per cataloghi di prodotti, ricerca visiva e applicazioni di scoperta dei contenuti
Limitazioni:
-
Impossibile elaborare efficacemente contenuti vocali o audio: le informazioni vocali non sono ricercabili
-
RetrieveAndGeneratee riordina la funzionalità limitata ai soli contenuti testuali -
Richiede la configurazione di una destinazione di archiviazione multimodale dedicata
-
- Bedrock Data Automation (BDA)
-
Funzionalità chiave:
-
Trascrizione vocale completa utilizzando la tecnologia di riconoscimento vocale automatico (ASR)
-
L'analisi del contenuto visivo genera testo descrittivo per immagini e scene video
-
Il
RetrieveAndGeneratesupporto completo consente la funzionalità RAG completa su tutti i contenuti -
La ricerca basata su testo funziona in modo uniforme su tutti i tipi di contenuti multimediali
Limitazioni:
-
Nessun supporto per le query basate su immagini se utilizzate senza Nova Multimodal Embeddings: tutte le ricerche devono utilizzare l'immissione di testo
-
Impossibile eseguire corrispondenze o ricerche di somiglianza visiva image-to-image
-
Tempi di elaborazione dell'ingestione più lunghi a causa dei requisiti di conversione dei contenuti
-
Supporta un numero inferiore di formati di file multimediali rispetto a Nova Multimodal Embeddings
-
Elaborazione dei contenuti vocali
Nova Multimodal Embeddings non è in grado di elaborare efficacemente i contenuti vocali nei file audio o video. Se i tuoi contenuti multimediali contengono importanti informazioni vocali che gli utenti devono cercare, scegli l'approccio BDA per garantire la trascrizione e la ricercabilità complete.