Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento do Amazon Bedrock

Ao criar uma base de conhecimento conectando-a a uma fonte de dados, configure ou especifique o seguinte:

Informações gerais que definam e identifiquem a base de conhecimento.
O perfil de serviço com permissões para a base de conhecimento.
Configurações da base de conhecimento, como o modelo de incorporação a ser usado ao converter dados da fonte de dados, configurações de armazenamento para o serviço no qual armazenar as incorporações e, opcionalmente, um local do S3 para armazenar dados multimodais.

nota

Você não pode criar uma base de conhecimento com um usuário-raiz. Faça login com um usuário do IAM antes de iniciar essas etapas.

Expanda a seção que corresponde ao seu caso de uso:

Como configurar uma base de conhecimento

Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock.
No painel de navegação à esquerda, selecione Bases de conhecimento.
Na seção Bases de conhecimento, escolha o botão “criar” e faça a seleção para criar uma base de conhecimento com um armazenamento de vetores.
(Opcional) Altere o nome padrão e dê uma descrição para a base de conhecimento.
Escolha uma função AWS Identity and Access Management (IAM) que forneça permissão ao Amazon Bedrock para acessar outros AWS serviços necessários. Você pode permitir que o Amazon Bedrock crie o perfil de serviço ou escolher um perfil personalizado criado por você para o Neptune Analytics.
Escolha uma fonte de dados para conectar com a base de conhecimento.
(Opcional) Adicione tags à base de conhecimento. Para obter mais informações, consulte Marcação de recursos do Amazon Bedrock.
(Opcional) Configure serviços para os quais fornecer logs de atividades para sua base de conhecimento.
Vá para a próxima seção e siga as etapas em Conectar uma fonte de dados à base de conhecimento para configurar uma fonte de dados.
Na seção Modelo de incorporações, faça o seguinte:
1. Escolha um modelo de incorporação para converter seus dados em incorporações de vetores. Para dados multimodais (imagens, áudio e vídeo), selecione um modelo de incorporação multimodal, como Amazon Titan Multimodal Embeddings G1 ou Cohere Embed v3.
  
  nota
  Ao usar o Amazon Titan Multimodal Embeddings G1, você deve fornecer um bucket de conteúdo S3 e só pode usar o analisador padrão. Esse modelo é otimizado para casos de uso de pesquisa de imagens. Para obter uma orientação abrangente sobre a escolha entre abordagens multimodais, consulte. Crie uma base de conhecimento para conteúdo multimodal
2. (Opcional) Expanda a seção Configurações adicionais para ver as seguintes opções de configuração (nem todos os modelos comportam todas as configurações):
  - Tipo de incorporação: se deseja converter os dados em incorporações de vetores de ponto flutuante (float32) (mais precisas, mas mais caras) ou incorporações de vetores binários (menos precisas, mas menos caras). Para saber quais modelos de incorporação aceitam vetores binários, consulte os modelos de incorporação compatíveis.
  - Dimensões vetoriais: valores mais altos melhoram a precisão, mas aumentam o custo e a latência.
Na seção Banco de dados de vetores, faça o seguinte:
1. Escolha um armazenamento de vetores para armazenar as incorporações de vetores que serão usadas na consulta. Você tem as seguintes opções:
  - Crie rapidamente um armazenamento de vetores: escolha uma dos armazenamentos de vetores disponíveis para o Amazon Bedrock criar. Você também pode configurar opcionalmente a criptografia de AWS KMS chave para seu armazenamento de vetores.
    
    nota
    Ao usar essa opção, o Amazon Bedrock gerencia automaticamente o posicionamento dos metadados para cada armazenamento de vetores.
    Amazon OpenSearch Serverless — O Amazon Bedrock Knowledge Bases cria uma coleção e um índice de pesquisa vetorial Amazon OpenSearch Serverless e os configura com os campos obrigatórios para você.
    
    Amazon Aurora PostgreSQL Sem Servidor: o Amazon Bedrock configura um armazenamento de vetores do Amazon Aurora PostgreSQL Sem Servidor. Esse processo extrai os dados de texto não estruturados de um bucket do Amazon S3, transforma-os em blocos e vetores de texto e armazena-os em um banco de dados do PostgreSQL. Para ter mais informações, consulte Criar rapidamente uma Base de Conhecimento para Amazon Bedrock do Aurora PostgreSQL.
    
    Amazon Neptune Analytics: o Amazon Bedrock usa técnicas de geração aumentada via recuperação (RAG) combinadas com grafos para aprimorar aplicações de IA generativa e permitir que os usuários finais obtenham respostas mais precisas e abrangentes.
    
    Amazon S3 Vectors: as Bases de Conhecimento do Amazon Bedrock criam um índice de vetores e um bucket de vetores do S3 para armazenar as incorporações geradas das fontes de dados.
    
    Você pode criar uma base de conhecimento para os vetores do Amazon S3 em todos os Região da AWS países em que os vetores Amazon Bedrock e Amazon S3 estão disponíveis. Para ter mais informações, consulte Amazon S3 Vectors no Guia do usuário do Amazon S3.
    
    nota
    Ao usar os vetores do Amazon S3 com as bases de conhecimento do Amazon Bedrock, você pode anexar até 1 KB de metadados personalizados (incluindo metadados filtráveis e não filtráveis) e 35 chaves de metadados por vetor. Para obter informações detalhadas sobre limitações de metadados, consulte Suporte a metadados emPré-requisitos para usar o armazenamento de vetores que você criou para uma base de conhecimento.
  - Escolha um armazenamento de vetores que você criou: selecione um armazenamento de vetores compatível e identifique o nome dos campos de vetores e o nome dos campos de metadados no índice de vetores. Para obter mais informações, consulte Pré-requisitos para usar o armazenamento de vetores que você criou para uma base de conhecimento.
    
    nota
    Se sua fonte de dados for uma instância do Confluence SharePoint, Microsoft ou Salesforce, o único serviço de armazenamento vetorial compatível é o Amazon Serverless. OpenSearch
2. (Opcional) Expanda a seção Configurações adicionais e modifique todas as configurações relevantes.
Se a fonte de dados contiver imagens, especifique um URI do Amazon S3 em Destino de armazenamento multimodal para armazenar as imagens que o analisador extrairá dos dados. As imagens podem ser exibidas durante a consulta. Opcionalmente, você também pode escolher uma chave gerenciada pelo cliente em vez da padrão Chave gerenciada pela AWS para criptografar seus dados.

nota
Só é possível utilizar dados multimodais com o Amazon S3 e fontes de dados personalizadas.
nota
Ao usar modelos de incorporação multimodais:
- O Amazon Titan Multimodal Embeddings G1 requer um bucket de conteúdo S3 e funciona melhor com conjuntos de dados somente de imagens usando o analisador padrão
- O Cohere Embed v3 suporta conjuntos mistos de dados de texto e imagem e pode ser usado com qualquer configuração de analisador
- Para casos de uso de pesquisa de imagens, evite usar o Bedrock Data Automation (BDA) ou analisadores de modelos básicos com o Titan G1 devido às limitações do token
- O destino de armazenamento multimodal cria cópias de arquivos para fins de recuperação, o que pode gerar cobranças adicionais de armazenamento
Escolha Próximo e analise os detalhes da base de conhecimento. É possível editar qualquer seção antes de começar a criar a base de conhecimento.

nota
O tempo necessário para criar a base de conhecimento depende de suas configurações específicas. Quando a criação da base de conhecimento é concluída, o status da base de conhecimento muda para o estado pronto ou disponível.
Quando a base de conhecimento estiver pronta e disponível, sincronize a fonte de dados pela primeira vez e sempre que quiser manter o conteúdo atualizado. Selecione a base de conhecimento no console e escolha Sincronizar na seção de visão geral da fonte de dados.

Para criar uma base de conhecimento, envie uma solicitação CreateKnowledgeBase com um endpoint de tempo de compilação do recurso Agentes para Amazon Bedrock.

nota

Se preferir permitir que o Amazon Bedrock crie e gerencie um armazenamento de vetores para você, use o console. Para ter mais informações, expanda a seção Usar o console neste tópico.

Os seguintes campos são obrigatórios:

Campo	Descrição básica
name	Um nome para a base de conhecimento.
roleArn	O ARN de um perfil de serviço das Bases de Conhecimento do Amazon Bedrock.
knowledgeBaseConfiguration	Contém as configurações da base de conhecimento. Veja os detalhes abaixo.
storageConfiguration	(Exigido somente se você estiver se conectando a uma fonte de dados não estruturados.)Contém configurações para o serviço de fonte de dados que você escolher.

Os seguintes campos são opcionais:

Campo	Caso de uso
descrição	Uma descrição da base de conhecimento.
clientToken	Para garantir que a solicitação de API seja concluída apenas uma vez. Para obter mais informações, consulte Ensuring idempotency.
tags	Para associar tags ao fluxo. Para obter mais informações, consulte Marcação de recursos do Amazon Bedrock.

No knowledgeBaseConfiguration campo, que mapeia para um KnowledgeBaseConfigurationobjeto, especifique VECTOR no type campo e inclua um VectorKnowledgeBaseConfigurationobjeto. No objeto, inclua os seguintes campos:

embeddingModelArn: o ARN do modelo de incorporação a ser usado.
embeddingModelConfiguration: configurações para o modelo de incorporação. Para ver os valores possíveis que você pode especificar para cada modelo compatível, consulte Modelos e regiões compatíveis para bases de conhecimento do Amazon Bedrock.
(Se você planeja incluir dados multimodais, que incluem imagens, figuras, gráficos ou tabelas, em sua base de conhecimento) supplementalDataStorageConfiguration — Mapeia para um SupplementalDataStorageLocationobjeto, no qual você especifica o local do S3 no qual armazenar os dados extraídos. Para obter mais informações, consulte Opções de análise para a fonte de dados.

No storageConfiguration campo, que mapeia para um StorageConfigurationobjeto, especifique o armazenamento vetorial ao qual você planeja se conectar no type campo e inclua o campo que corresponde a esse armazenamento vetorial. Consulte cada tipo de configuração de armazenamento de vetores em StorageConfigurationpara obter detalhes sobre as informações que você precisa fornecer.

Veja a seguir um exemplo de solicitação para criar uma base de conhecimento conectada a uma coleção Amazon OpenSearch Serverless. Os dados das fontes de dados conectadas serão convertidos em incorporações vetoriais binárias com a Amazon Titan Text Embeddings V2 e os dados multimodais extraídos pelo analisador serão configurados para serem armazenados em um bucket chamado. MyBucket


PUT /knowledgebases/ HTTP/1.1
Content-type: application/json

{
   "name": "MyKB",
   "description": "My knowledge base",
   "roleArn": "arn:aws:iam::111122223333:role/service-role/AmazonBedrockExecutionRoleForKnowledgeBase_123",
   "knowledgeBaseConfiguration": {
      "type": "VECTOR",
      "vectorKnowledgeBaseConfiguration": { 
         "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.titan-embed-text-v2:0",
         "embeddingModelConfiguration": { 
            "bedrockEmbeddingModelConfiguration": { 
               "dimensions": 1024,
               "embeddingDataType": "BINARY"
            }
         },
         "supplementalDataStorageConfiguration": { 
            "storageLocations": [ 
               { 
                  "s3Location": { 
                     "uri": "arn:aws:s3:::MyBucket"
                  },
                  "type": "S3"
               }
            ]
         }
      }
   },
   "storageConfiguration": { 
      "opensearchServerlessConfiguration": { 
         "collectionArn": "arn:aws:aoss:us-east-1:111122223333:collection/abcdefghij1234567890",
         "fieldMapping": { 
            "metadataField": "metadata",
            "textField": "text",
            "vectorField": "vector"
         },
         "vectorIndexName": "MyVectorIndex"
      }
   }
}

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Configurar permissões do OpenSearch com controle de acesso refinado

Conectar uma fonte de dados