Crie uma base de conhecimento para conteúdo multimodal - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie uma base de conhecimento para conteúdo multimodal

Você pode criar bases de conhecimento multimodais usando o console ou a API. Escolha sua abordagem com base em suas necessidades de processamento multimodal.

Importante

O suporte multimodal só está disponível ao criar uma base de conhecimento com fontes de dados não estruturadas. As fontes de dados estruturadas não oferecem suporte ao processamento de conteúdo multimodal.

Console
Para criar uma base de conhecimento multimodal a partir do console
  1. Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock.

  2. No painel de navegação à esquerda, selecione Bases de conhecimento.

  3. Na seção Bases de conhecimento, escolha Criar e selecione Base de conhecimento com armazenamento vetorial.

  4. (Opcional) Em Detalhes da base de conhecimento, altere o nome padrão e dê uma descrição para a base de conhecimento.

  5. Em Permissões do IAM escolha um perfil do IAM que forneça permissão ao Amazon Bedrock para acessar outros Serviços da AWS necessários. Você pode fazer com que o Amazon Bedrock crie a função de serviço para você ou pode optar por usar sua própria função personalizada. Para obter permissões multimodais, consulte. Permissões para conteúdo multimodal

  6. Escolha o Amazon S3 como sua fonte de dados e escolha Avançar para configurar sua fonte de dados.

    nota

    Você pode adicionar até 5 fontes de dados do Amazon S3 durante a criação da base de conhecimento. Fontes de dados adicionais podem ser adicionadas após a criação da base de conhecimento.

  7. Forneça o URI do S3 do bucket que contém seu conteúdo multimodal e configure um prefixo de inclusão, se necessário. O prefixo de inclusão é um caminho de pasta que pode ser usado para limitar o conteúdo que é ingerido.

  8. Em Configurações de fragmentação e análise, escolha sua estratégia de análise:

    • Analisador padrão Bedrock: recomendado para processamento de conteúdo somente de texto. Esse analisador processa formatos de texto comuns enquanto ignora arquivos multimodais. Oferece suporte a documentos de texto, incluindo arquivos Word, Excel, HTML, Markdown, TXT e CSV.

    • Bedrock Data Automation (BDA): converte conteúdo multimodal em representações de texto pesquisáveis. Processos PDFs, imagens, arquivos de áudio e vídeo para extrair texto, gerar descrições para conteúdo visual e criar transcrições para conteúdo de áudio e vídeo.

    • Analisador de modelos Foundation: fornece recursos avançados de análise para estruturas complexas de documentos. Processos PDFs, imagens, documentos estruturados, tabelas e conteúdo visualmente rico para extrair texto e gerar descrições para elementos visuais.

  9. Escolha Avançar e selecione seu modelo de incorporação e abordagem de processamento multimodal.

    • Amazon Nova Multimodal Embeddings V1.0: escolha Amazon Nova embedding V1.0 para pesquisas diretas de similaridade visual e de áudio. Configure a duração do fragmento de áudio e vídeo (1 a 30 segundos, padrão 5 segundos) para controlar como o conteúdo é segmentado.

      nota

      Os parâmetros de fragmentação de áudio e vídeo são configurados no nível do modelo de incorporação, não no nível da fonte de dados. Uma exceção de validação ocorre se você fornecer essa configuração para modelos de incorporação não multimodais. Configure a duração do fragmento de áudio e vídeo (padrão: 5 segundos, intervalo: 1 a 30 segundos) para controlar como o conteúdo é segmentado. Pedaços mais curtos permitem a recuperação precisa do conteúdo, enquanto pedaços mais longos preservam mais contexto semântico.

      Importante

      O Amazon Nova embedding v1.0 tem suporte limitado para pesquisar conteúdo de fala em audio/video dados. Se você precisar oferecer suporte à fala, use o Bedrock Data Automation como analisador.

    • Incorporações de texto com o BDA: escolha um modelo de incorporação de texto (como o Titan Text Embeddings v2) ao usar o processamento do BDA. Os modelos de incorporação de texto limitam a recuperação ao conteúdo somente de texto, mas você pode habilitar a recuperação multimodal selecionando Amazon Bedrock Data Automation ou Foundation Model como analisadores.

      nota

      Se você usar o analisador BDA com o Nova Multimodal Embeddings, o Amazon Bedrock Knowledge Bases usará primeiro a análise do BDA. Nesse caso, o modelo de incorporação não gerará incorporações multimodais nativas para imagens, áudio e vídeo, pois o BDA os converte em representações de texto.

  10. Se estiver usando o Nova Multimodal Embeddings, configure o destino de armazenamento multimodal especificando um bucket do Amazon S3 onde os arquivos processados serão armazenados para recuperação. As bases de conhecimento armazenarão imagens analisadas em um único bucket do Amazon S3 com uma pasta criada.bda para facilitar o acesso.

    Recomendação de política de ciclo de vida

    Ao usar o Nova Multimodal Embeddings, o Amazon Bedrock armazena dados transitórios em seu destino de armazenamento multimodal e tenta excluí-los após a conclusão do processamento. Recomendamos aplicar uma política de ciclo de vida no caminho transitório dos dados para garantir a limpeza adequada. Para obter instruções detalhadas, consulte Gerenciamento de dados transitórios com políticas de ciclo de vida do Amazon S3.

  11. Na seção Banco de dados vetoriais, escolha seu método de armazenamento vetorial e configure as dimensões apropriadas com base no modelo de incorporação selecionado.

  12. Escolha Avançar e revise os detalhes da configuração da sua base de conhecimento e, em seguida, escolha Criar base de conhecimento.

CLI
Para criar uma base de conhecimento multimodal usando o AWS CLI
  • Crie uma base de conhecimento com a Nova Multimodal Embeddings. Envie uma CreateKnowledgeBasesolicitação:

    aws bedrock-agent create-knowledge-base \ --cli-input-json file://kb-nova-mme.json

    Conteúdo de kb-nova-mme.json (substitua os valores do espaço reservado por sua configuração específica):

    { "knowledgeBaseConfiguration": { "vectorKnowledgeBaseConfiguration": { "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-multimodal-embeddings-v1:0", "supplementalDataStorageConfiguration": { "storageLocations": [ { "type": "S3", "s3Location": { "uri": "s3://<multimodal-storage-bucket>/" } } ] } }, "type": "VECTOR" }, "storageConfiguration": { "opensearchServerlessConfiguration": { "collectionArn": "arn:aws:aoss:us-east-1:<account-id>:collection/<collection-id>", "vectorIndexName": "<index-name>", "fieldMapping": { "vectorField": "<vector-field>", "textField": "<text-field>", "metadataField": "<metadata-field>" } }, "type": "OPENSEARCH_SERVERLESS" }, "name": "<knowledge-base-name>", "description": "Multimodal knowledge base with Nova Multimodal Embeddings" }

    Substitua os seguintes espaços reservados:

    • <multimodal-storage-bucket>- Bucket S3 para armazenar arquivos multimodais

    • <account-id>- O ID da sua conta da AWS

    • <collection-id>- ID de OpenSearch coleção sem servidor

    • <index-name>- Nome do índice vetorial em sua OpenSearch coleção (configurado com dimensões apropriadas para o modelo de incorporação escolhido)

    • <vector-field>- Nome do campo para armazenar incorporações

    • <text-field>- Nome do campo para armazenar conteúdo de texto

    • <metadata-field>- Nome do campo para armazenar metadados