Scelta dell'approccio di elaborazione multimodale - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Scelta dell'approccio di elaborazione multimodale

Amazon Bedrock Knowledge Bases offre due approcci per l'elaborazione di contenuti multimodali: Nova Multimodal Embeddings per ricerche di similarità visiva e Bedrock Data Automation (BDA) per l'elaborazione testuale di contenuti multimediali. Puoi anche utilizzare i modelli di base come parser se la modalità di input è l'immagine ma non l'audio o il video.

Questa sezione descrive l'utilizzo di Nova Multimodal Embeddings e BDA come approccio di elaborazione per contenuti multimodali. Ogni approccio è ottimizzato per diversi casi d'uso e modelli di query.

Approccio di elaborazione multimodale

La tabella seguente mostra un confronto tra Nova Multimodal Embeddings e BDA per l'elaborazione di contenuti multimodali.

Confronto degli approcci di elaborazione
Caratteristica Incorporamenti multimodali Nova Bedrock Data Automation (BDA)
Metodo di elaborazione Genera incorporamenti senza conversione intermedia del testo Converte i file multimediali in testo, quindi crea incorporamenti
Tipi di query supportati Interrogazioni di testo o di immagini Solo interrogazioni di testo
Casi d'uso primari Ricerca di somiglianze visive, abbinamento dei prodotti, scoperta di immagini Trascrizione vocale, ricerca testuale, analisi dei contenuti
Funzionalità RAG Limitato al solo contenuto testuale RetrieveAndGenerateSupporto completo
Requisiti di storage È richiesta una destinazione di archiviazione multimodale Destinazione di archiviazione multimodale facoltativa, ma se non specificata, solo i dati di testo verranno elaborati da BDA. Per l'immissione non testuale, è necessario specificare una destinazione di archiviazione multimodale.

Disponibilità regionale

Disponibilità regionale
Incorporamenti multimodali Nova Bedrock Data Automation (BDA)
Solo Stati Uniti orientali (Virginia settentrionale)
  • Stati Uniti occidentali (Oregon)

  • Stati Uniti orientali (Virginia settentrionale)

  • Europa (Francoforte)

  • Europa (Londra)

  • Europa (Irlanda)

  • Asia Pacifico (Mumbai)

  • Asia Pacifico (Sydney)

  • AWSGovCloud (Stati Uniti occidentali)

Criteri di selezione per tipo di contenuto

Utilizza questa matrice decisionale per scegliere l'approccio di elaborazione appropriato in base ai requisiti dei contenuti e dei casi d'uso:

Nota

Se utilizzi il parser BDA con il modello Amazon Nova Multimodal Embeddings, il modello di incorporamento funzionerà come un modello di incorporamento di testo. Quando lavori con contenuti multimodali, utilizza uno degli approcci di elaborazione per ottenere i migliori risultati a seconda del caso d'uso.

Suggerimenti sull'approccio di elaborazione per tipo di contenuto
Content Type Incorporamenti multimodali Nova Bedrock Data Automation (BDA)
Cataloghi e immagini dei prodotti Consigliato: consente la corrispondenza delle somiglianze visive e le interrogazioni basate su immagini Limitato: estrae solo il testo tramite OCR
Registrazioni e chiamate delle riunioni Non è possibile elaborare i contenuti vocali in modo significativo Consigliato: fornisce la trascrizione completa del parlato e un testo ricercabile
Video formativi e didattici Parziale: gestisce i contenuti visivi ma non la voce Consigliato: acquisisce sia le trascrizioni vocali che le descrizioni visive
Registrazioni dell'assistenza clienti Non consigliato: i contenuti vocali non possono essere elaborati in modo efficace Consigliato: crea trascrizioni di conversazioni complete e ricercabili
Diagrammi e diagrammi tecnici Consigliato: eccellente per la somiglianza visiva e la corrispondenza dei modelli Limitato: estrae le etichette di testo ma non le relazioni visive

Tipi di file e fonti di dati supportati

I tipi di file supportati dipendono dall'approccio di elaborazione scelto:

Tipi di file supportati in base all'approccio di elaborazione
Tipo di file Incorporamenti multimodali Nova Bedrock Data Automation (BDA)
Immagini .png, .jpg, .jpeg, .gif, .webp .png, .jpg, .jpeg
Audio .mp3, .ogg, .wav .amr, .flac, .m4a, .mp3, .ogg, .wav
Video .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp .mp4, .mov
Documenti Elaborato come testo .pdf (più l'estrazione del testo dalle immagini)
Fonti di dati supportate

I contenuti multimodali sono supportati con le seguenti fonti di dati:

  • Amazon S3: supporto completo per tutti i tipi di file multimodali

  • Fonti dati personalizzate: Supporto per contenuti in linea con codifica base64 fino a 10 MB

Importante

Il recupero multimodale è attualmente disponibile solo per le fonti di dati Amazon S3. Altre fonti di dati (Confluence, Salesforce SharePoint, Web Crawler) non elaborano i file multimodali durante l'ingestione. Questi file vengono ignorati e non saranno disponibili per le query multimodali.

Funzionalità e limitazioni

Incorporamenti multimodali Nova

Funzionalità chiave:

  • L'elaborazione multimodale nativa preserva il formato del contenuto originale per una corrispondenza ottimale delle somiglianze visive

  • Le query basate su immagini consentono agli utenti di caricare immagini e trovare contenuti visivamente simili

  • Prestazioni eccellenti per cataloghi di prodotti, ricerca visiva e applicazioni di scoperta dei contenuti

Limitazioni:

  • Impossibile elaborare efficacemente contenuti vocali o audio: le informazioni vocali non sono ricercabili

  • RetrieveAndGeneratee riordina la funzionalità limitata ai soli contenuti testuali

  • Richiede la configurazione di una destinazione di archiviazione multimodale dedicata

Bedrock Data Automation (BDA)

Funzionalità chiave:

  • Trascrizione vocale completa utilizzando la tecnologia di riconoscimento vocale automatico (ASR)

  • L'analisi del contenuto visivo genera testo descrittivo per immagini e scene video

  • Il RetrieveAndGenerate supporto completo consente la funzionalità RAG completa su tutti i contenuti

  • La ricerca basata su testo funziona in modo uniforme su tutti i tipi di contenuti multimediali

Limitazioni:

  • Nessun supporto per le query basate su immagini se utilizzate senza Nova Multimodal Embeddings: tutte le ricerche devono utilizzare l'immissione di testo

  • Impossibile eseguire corrispondenze o ricerche di somiglianza visiva image-to-image

  • Tempi di elaborazione dell'ingestione più lunghi a causa dei requisiti di conversione dei contenuti

  • Supporta un numero inferiore di formati di file multimediali rispetto a Nova Multimodal Embeddings

Elaborazione dei contenuti vocali

Nova Multimodal Embeddings non è in grado di elaborare efficacemente i contenuti vocali nei file audio o video. Se i tuoi contenuti multimediali contengono importanti informazioni vocali che gli utenti devono cercare, scegli l'approccio BDA per garantire la trascrizione e la ricercabilità complete.