As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Crie uma base de conhecimento para conteúdo multimodal
<a name="kb-multimodal"></a>

O Amazon Bedrock Knowledge Bases oferece suporte a conteúdo multimodal, incluindo arquivos de imagens, áudio e vídeo. Você pode pesquisar usando imagens como consultas, recuperar conteúdo visualmente semelhante e processar arquivos multimídia junto com documentos de texto tradicionais. Esse recurso permite que você extraia insights de diversos tipos de dados — imagens independentes, gravações de áudio e arquivos de vídeo armazenados em toda a sua organização.

As bases de conhecimento Amazon Bedrock permitem que você indexe e recupere informações de conteúdo de texto, visual e áudio. Agora, as organizações podem pesquisar catálogos de produtos usando imagens, encontrar momentos específicos em vídeos de treinamento e recuperar segmentos relevantes das gravações de chamadas de suporte ao cliente.

**Disponibilidade regional**  
As abordagens de processamento multimodal têm diferentes disponibilidades regionais. Para obter informações detalhadas, consulte [Disponibilidade regional](kb-multimodal-choose-approach.md#kb-multimodal-processing-regions).

## Recursos e capacidades
<a name="kb-multimodal-features"></a>

As bases de conhecimento multimodais fornecem os seguintes recursos principais:

**Image-based consultas**  
Envie imagens como consultas de pesquisa para encontrar conteúdo visualmente semelhante ao usar o Nova Multimodal Embeddings. Oferece suporte à correspondência de produtos, à pesquisa visual por similaridade e à recuperação de imagens.

**Recuperação de conteúdo de áudio**  
Pesquise arquivos de áudio usando consultas de texto. Recupere segmentos específicos de gravações com referências de carimbo de data/hora. A transcrição de áudio permite a pesquisa baseada em texto em conteúdo falado, incluindo reuniões, chamadas e podcasts.

**Extração de segmentos de vídeo**  
Localize momentos específicos em arquivos de vídeo usando consultas de texto. Recupere segmentos de vídeo com registros de data e hora precisos.

**Cross-modal pesquisa**  
Pesquise em diferentes tipos de dados, incluindo documentos de texto, imagens, áudio e vídeo. Recupere conteúdo relevante, independentemente do formato original.

**Referências de origem com carimbos de data/hora**  
Os resultados da recuperação incluem referências aos arquivos originais com metadados temporais para áudio e vídeo. Permite uma navegação precisa para segmentos relevantes dentro do conteúdo multimídia.

**Opções flexíveis de processamento**  
Escolha entre incorporações multimodais nativas para semelhança visual ou conversão de texto para conteúdo baseado em fala. Configure a abordagem de processamento com base nas características do conteúdo e nos requisitos do aplicativo.

## Como funciona
<a name="kb-multimodal-how-it-works"></a>

As bases de conhecimento multimodais processam e recuperam conteúdo por meio de um pipeline de vários estágios que lida adequadamente com diferentes tipos de dados:

****Ingestão e processamento****

1. **Conexão com a fonte de dados:** conecte sua base de conhecimento aos buckets do Amazon S3 ou fontes de dados personalizadas contendo documentos de texto, imagens, arquivos de áudio e arquivos de vídeo.

1. **Detecção do tipo de arquivo:** o sistema identifica cada tipo de arquivo por sua extensão e o encaminha para o pipeline de processamento apropriado.

1. **Processamento de conteúdo:** dependendo da sua configuração, os arquivos são processados usando uma das duas abordagens:
   + **Nova Multimodal Embeddings:** preserva o formato nativo para correspondência de similaridade visual e de áudio. Imagens, áudio e vídeo são incorporados diretamente sem conversão em texto.
   + **Bedrock Data Automation (BDA):** converte multimídia em representações de texto. O áudio é transcrito usando o Reconhecimento Automático de Fala (ASR), o vídeo é processado para extrair resumos e transcrições de cenas e as imagens passam por OCR e extração de conteúdo visual.

1. **Geração de incorporação:** o conteúdo processado é convertido em incorporações vetoriais usando o modelo de incorporação selecionado. Essas incorporações capturam o significado semântico e permitem a recuperação baseada em similaridade.

1. **Armazenamento vetorial:** as incorporações são armazenadas em seu banco de dados vetoriais configurado junto com metadados, incluindo referências de arquivos, registros de data e hora (para áudio e vídeo) e informações do tipo de conteúdo.

1. **Armazenamento multimodal (opcional):** se configurados, os arquivos multimídia originais são copiados para um destino de armazenamento multimodal dedicado para recuperação confiável, garantindo a disponibilidade mesmo se os arquivos de origem forem modificados ou excluídos.

****Consulta e recuperação****

1. **Processamento de consultas:** as consultas do usuário (texto ou imagem) são convertidas em incorporações usando o mesmo modelo de incorporação usado durante a ingestão.

1. **Pesquisa por similaridade:** a incorporação da consulta é comparada com as incorporações armazenadas no banco de dados vetoriais para identificar o conteúdo mais relevante.

1. **Recuperação do resultado:** o sistema retorna o conteúdo correspondente com metadados, incluindo:
   + URI de origem (localização do arquivo original)
   + Metadados de timestamp (para segmentos de áudio e vídeo)
   + Informações sobre tipo e modalidade de conteúdo

1. **Geração de resposta (opcional):** para `RetrieveAndGenerate` solicitações, o conteúdo recuperado é passado para um modelo básico para gerar respostas de texto contextualmente relevantes. Isso é suportado ao usar o processamento do BDA ou quando a base de conhecimento contém conteúdo de texto.

**Importante**  
O sistema retorna referências a arquivos completos com metadados de registro de data e hora para conteúdo de áudio e vídeo. Seu aplicativo deve extrair e reproduzir segmentos específicos com base nos registros de data e hora de início e término fornecidos. Ele Console de gerenciamento da AWS lida com isso automaticamente.

**Topics**
+ [Recursos e capacidades](#kb-multimodal-features)
+ [Como funciona](#kb-multimodal-how-it-works)
+ [Escolhendo sua abordagem de processamento multimodal](kb-multimodal-choose-approach.md)
+ [Pré-requisitos para bases de conhecimento multimodais](kb-multimodal-prerequisites.md)
+ [Crie uma base de conhecimento para conteúdo multimodal](kb-multimodal-create.md)
+ [Adicionar fontes de dados e iniciar a ingestão](kb-multimodal-add-data-source-and-ingest.md)
+ [Testando e consultando bases de conhecimento multimodais](kb-multimodal-test-and-query.md)
+ [Solução de problemas de bases de conhecimento multimodais](kb-multimodal-troubleshooting.md)