As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Escolhendo sua abordagem de processamento multimodal
O Amazon Bedrock Knowledge Bases oferece duas abordagens para o processamento de conteúdo multimodal: Nova Multimodal Embeddings para pesquisas de similaridade visual e Bedrock Data Automation (BDA) para processamento de conteúdo multimídia baseado em texto. Você também pode usar modelos básicos como analisador se sua modalidade de entrada for imagem, mas não para áudio ou vídeo.
Esta seção descreve o uso do Nova Multimodal Embeddings e do BDA como sua abordagem de processamento para conteúdo multimodal. Cada abordagem é otimizada para diferentes casos de uso e padrões de consulta.
Tópicos
Abordagem de processamento multimodal
A tabela a seguir mostra uma comparação entre Nova Multimodal Embeddings e BDA para processamento de conteúdo multimodal.
| Característica | Incorporações multimodais Nova | Automação de dados Bedrock (BDA) |
|---|---|---|
| Método de processamento | Gera incorporações sem conversão intermediária de texto | Converte multimídia em texto e cria incorporações |
| Tipos de consulta compatíveis | Consultas de texto ou consultas de imagem | Somente consultas de texto |
| Casos de uso primários | Pesquisa visual por similaridade, correspondência de produtos, descoberta de imagens | Transcrição de fala, pesquisa baseada em texto, análise de conteúdo |
| Funcionalidade RAG | Limitado somente ao conteúdo de texto | RetrieveAndGenerateSuporte completo |
| Requisitos de armazenamento | Destino de armazenamento multimodal necessário | Destino de armazenamento multimodal opcional, mas se não for especificado, somente dados de texto serão processados pelo BDA. Para entrada que não seja de texto, você deve especificar um destino de armazenamento multimodal. |
Disponibilidade regional
| Incorporações multimodais Nova | Automação de dados Bedrock (BDA) |
|---|---|
| Somente leste dos EUA (Norte da Virgínia) |
|
Critérios de seleção por tipo de conteúdo
Use essa matriz de decisão para escolher a abordagem de processamento apropriada com base em seus requisitos de conteúdo e caso de uso:
nota
Se você usar o analisador BDA com o modelo Amazon Nova Multimodal Embeddings, o modelo de incorporação funcionará como um modelo de incorporação de texto. Ao trabalhar com conteúdo multimodal, use uma das abordagens de processamento para obter melhores resultados, dependendo do seu caso de uso.
| Tipo de conteúdo | Incorporações multimodais Nova | Automação de dados Bedrock (BDA) |
|---|---|---|
| Catálogos e imagens de produtos | Recomendado - Permite correspondência visual de similaridade e consultas baseadas em imagens | Limitado - Extrai texto somente por meio do OCR |
| Gravações e chamadas de reuniões | Não é possível processar o conteúdo da fala de forma significativa | Recomendado - Fornece transcrição completa do discurso e texto pesquisável |
| Vídeos educacionais e de treinamento | Parcial - manipula conteúdo visual, mas perde a fala | Recomendado - Captura transcrições de fala e descrições visuais |
| Gravações de suporte ao cliente | Não recomendado - o conteúdo da fala não pode ser processado de forma eficaz | Recomendado - Cria transcrições completas de conversas pesquisáveis |
| Diagramas e gráficos técnicos | Recomendado - Excelente para semelhança visual e correspondência de padrões | Limitado - Extrai rótulos de texto, mas perde relações visuais |
Tipos de arquivo e fontes de dados compatíveis
Os tipos de arquivo suportados dependem da abordagem de processamento escolhida:
| Tipo de arquivo | Incorporações multimodais Nova | Automação de dados Bedrock (BDA) |
|---|---|---|
| Imagens | .png, .jpg, .jpeg, .gif, .webp | .png, .jpg, .jpeg |
| Áudio | .mp3, .ogg, .wav | .amr, .flac, .m4a, .mp3, .ogg, .wav |
| Vídeo | .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp | .mp4, .mov |
| Documentos | Processado como texto | .pdf (mais extração de texto de imagens) |
Fonte de dados compatíveis
O conteúdo multimodal é compatível com as seguintes fontes de dados:
-
Amazon S3: suporte total para todos os tipos de arquivos multimodais
-
Fontes de dados personalizadas: Support para conteúdo embutido de até 10 MB codificado em base64
Importante
Atualmente, a recuperação multimodal está disponível somente para fontes de dados do Amazon S3. Outras fontes de dados (Confluence, Salesforce SharePoint, Web Crawler) não processam arquivos multimodais durante a ingestão. Esses arquivos são ignorados e não estarão disponíveis para consultas multimodais.
Capacidades e limitações
- Incorporações multimodais Nova
-
Principais capacidades:
-
O processamento multimodal nativo preserva o formato do conteúdo original para uma combinação ideal de similaridade visual
-
As consultas baseadas em imagens permitem que os usuários façam upload de imagens e encontrem conteúdo visualmente semelhante
-
Excelente desempenho para catálogos de produtos, pesquisa visual e aplicativos de descoberta de conteúdo
Limitações:
-
Não é possível processar com eficiência o conteúdo de voz ou áudio - as informações faladas não podem ser pesquisadas
-
RetrieveAndGeneratee a funcionalidade de reclassificação é limitada somente ao conteúdo de texto -
Requer a configuração de um destino de armazenamento multimodal dedicado
-
- Automação de dados Bedrock (BDA)
-
Principais capacidades:
-
Transcrição abrangente de fala usando a tecnologia de Reconhecimento Automático de Fala (ASR)
-
A análise visual de conteúdo gera texto descritivo para imagens e cenas de vídeo
-
O
RetrieveAndGeneratesuporte total permite a funcionalidade completa do RAG em todo o conteúdo -
A pesquisa baseada em texto funciona de forma consistente em todos os tipos de conteúdo multimídia
Limitações:
-
Não há suporte para consultas baseadas em imagens quando usadas sem o Nova Multimodal Embeddings - todas as pesquisas devem usar entrada de texto
-
Não é possível realizar pesquisas ou image-to-image correspondências visuais por similaridade
-
Maior tempo de processamento da ingestão devido aos requisitos de conversão de conteúdo
-
Suporta menos formatos de arquivo multimídia em comparação com o Nova Multimodal Embeddings
-
Processamento de conteúdo de fala
A Nova Multimodal Embeddings não pode processar com eficácia o conteúdo de fala em arquivos de áudio ou vídeo. Se seu conteúdo multimídia contiver informações faladas importantes que os usuários precisam pesquisar, escolha a abordagem BDA para garantir a transcrição e a capacidade de pesquisa completas.