Abordagem de processamento multimodal Disponibilidade regional Critérios de seleção por tipo de conteúdo Tipos de arquivo e fontes de dados compatíveis Capacidades e limitações

Escolhendo sua abordagem de processamento multimodal

O Amazon Bedrock Knowledge Bases oferece duas abordagens para o processamento de conteúdo multimodal: Nova Multimodal Embeddings para pesquisas de similaridade visual e Bedrock Data Automation (BDA) para processamento de conteúdo multimídia baseado em texto. Você também pode usar modelos básicos como analisador se sua modalidade de entrada for imagem, mas não para áudio ou vídeo.

Esta seção descreve o uso do Nova Multimodal Embeddings e do BDA como sua abordagem de processamento para conteúdo multimodal. Cada abordagem é otimizada para diferentes casos de uso e padrões de consulta.

Tópicos

Abordagem de processamento multimodal
Disponibilidade regional
Critérios de seleção por tipo de conteúdo
Tipos de arquivo e fontes de dados compatíveis
Capacidades e limitações

Abordagem de processamento multimodal

A tabela a seguir mostra uma comparação entre Nova Multimodal Embeddings e BDA para processamento de conteúdo multimodal.

Comparação da abordagem de processamento
Característica	Incorporador Multimodal do Nova	Automação de dados Bedrock (BDA)
Método de processamento	Gera incorporações sem conversão intermediária de texto	Converte multimídia em texto e cria incorporações
Tipos de consulta compatíveis	Consultas de texto ou consultas de imagem	Somente consultas de texto
Casos de uso primários	Pesquisa visual por similaridade, correspondência de produtos, descoberta de imagens	Transcrição de fala, pesquisa baseada em texto, análise de conteúdo
Funcionalidade RAG	Limitado somente ao conteúdo de texto	`RetrieveAndGenerate`Suporte completo
Requisitos de armazenamento	Destino de armazenamento multimodal necessário	Destino de armazenamento multimodal opcional, mas se não for especificado, somente dados de texto serão processados pelo BDA. Para entrada sem texto, você deve especificar um destino de armazenamento multimodal.

Disponibilidade regional

Disponibilidade regional
Incorporador Multimodal do Nova	Automação de dados Bedrock (BDA)
Somente leste dos EUA (Norte da Virgínia)	Oeste dos EUA (Oregon) Leste dos EUA (Norte da Virgínia) Europa (Frankfurt) Europa (Londres) Europa (Irlanda) Ásia-Pacífico (Mumbai) Ásia-Pacífico (Sydney) AWS GovCloud (US-West)

Critérios de seleção por tipo de conteúdo

Use essa matriz de decisão para escolher a abordagem de processamento apropriada com base em seus requisitos de conteúdo e caso de uso:

nota

Se você usar o analisador BDA com o modelo Amazon Nova Multimodal Embeddings, o modelo de incorporação funcionará como um modelo de incorporação de texto. Ao trabalhar com conteúdo multimodal, use uma das abordagens de processamento para obter melhores resultados, dependendo do seu caso de uso.

Recomendações de abordagem de processamento por tipo de conteúdo
Tipo de conteúdo	Incorporador Multimodal do Nova	Automação de dados Bedrock (BDA)
Catálogos e imagens de produtos	Recomendado - Permite correspondência visual de similaridade e consultas baseadas em imagens	Limitado - Extrai texto somente por meio do OCR
Gravações e chamadas de reuniões	Não é possível processar o conteúdo da fala de forma significativa	Recomendado - Fornece transcrição completa do discurso e texto pesquisável
Vídeos educacionais e de treinamento	Parcial - manipula conteúdo visual, mas perde a fala	Recomendado - Captura transcrições de fala e descrições visuais
Gravações de suporte ao cliente	Não recomendado - o conteúdo da fala não pode ser processado de forma eficaz	Recomendado - Cria transcrições completas de conversas pesquisáveis
Diagramas e gráficos técnicos	Recomendado - Excelente para semelhança visual e correspondência de padrões	Limitado - Extrai rótulos de texto, mas perde relações visuais

Tipos de arquivo e fontes de dados compatíveis

Os tipos de arquivo suportados dependem da abordagem de processamento escolhida:

Tipos de arquivo suportados por abordagem de processamento
Tipo de arquivo	Incorporador Multimodal do Nova	Automação de dados Bedrock (BDA)
Imagens	.png, .jpg, .jpeg, .gif, .webp	.png, .jpg, .jpeg
Áudio	.mp3, .ogg, .wav	.amr, .flac, .m4a, .mp3, .ogg, .wav
Vídeo	.mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp	.mp4, .mov
Documentos	Processado como texto	.pdf (mais extração de texto de imagens)

Fonte de dados compatíveis

O conteúdo multimodal é compatível com as seguintes fontes de dados:

Amazon S3: suporte total para todos os tipos de arquivos multimodais
Fontes de dados personalizadas: Support para conteúdo embutido de até 10 MB codificado em base64

Importante

Atualmente, a recuperação multimodal está disponível somente para fontes de dados do Amazon S3. Outras fontes de dados (Confluence, Salesforce SharePoint, Web Crawler) não processam arquivos multimodais durante a ingestão. Esses arquivos são ignorados e não estarão disponíveis para consultas multimodais.

Capacidades e limitações

Incorporador Multimodal do Nova

Principais capacidades:

O processamento multimodal nativo preserva o formato do conteúdo original para uma combinação ideal de similaridade visual
Image-based as consultas permitem que os usuários façam upload de imagens e encontrem conteúdo visualmente semelhante
Excelente desempenho para catálogos de produtos, pesquisa visual e aplicativos de descoberta de conteúdo

Limitações:

Não é possível processar com eficiência o conteúdo de voz ou áudio - as informações faladas não podem ser pesquisadas
RetrieveAndGeneratee a funcionalidade de reclassificação é limitada somente ao conteúdo de texto
Requer a configuração de um destino de armazenamento multimodal dedicado

Automação de dados Bedrock (BDA)

Principais capacidades:

Transcrição de fala abrangente usando a tecnologia de Reconhecimento Automático de Fala (ASR)
A análise visual de conteúdo gera texto descritivo para imagens e cenas de vídeo
O RetrieveAndGenerate suporte total permite a funcionalidade completa do RAG em todo o conteúdo
Text-based a pesquisa funciona de forma consistente em todos os tipos de conteúdo multimídia

Limitações:

Não há suporte para consultas baseadas em imagens quando usadas sem o Nova Multimodal Embeddings - todas as pesquisas devem usar entrada de texto
Não é possível realizar correspondência visual de similaridade ou pesquisas de imagem a imagem
Maior tempo de processamento da ingestão devido aos requisitos de conversão de conteúdo
Suporta menos formatos de arquivo multimídia em comparação com o Nova Multimodal Embeddings

Processamento de conteúdo de fala

A Nova Multimodal Embeddings não pode processar com eficácia o conteúdo de fala em arquivos de áudio ou vídeo. Se seu conteúdo multimídia contiver informações faladas importantes que os usuários precisam pesquisar, escolha a abordagem BDA para garantir a transcrição e a capacidade de pesquisa completas.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Crie uma base de conhecimento para conteúdo multimodal

Pré-requisitos