Pré-requisitos para usar o armazenamento de vetores que você criou para uma base de conhecimento
Para armazenar as incorporações de vetores nas quais seus documentos são convertidos, use um armazenamento de vetores. As Bases de Conhecimento do Amazon Bedrock oferece um fluxo de criação rápida para alguns dos armazenamentos de vetores. Portanto, se preferir que o Amazon Bedrock crie automaticamente um índice de vetores para você em um desses armazenamento de vetores, ignore esse pré-requisito e prossiga para Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento do Amazon Bedrock.
Se você quiser armazenar incorporações de vetores binários em vez de incorporações de vetores de ponto flutuante padrão (float32), use um armazenamento de vetores que permita vetores binários.
nota
O Amazon OpenSearch Sem Servidor e os cluster gerenciados do Amazon OpenSearch são os únicos armazenamentos de vetores que permitem o armazenamento de vetores binários.
É possível configurar seu próprio armazenamento de vetores compatível para indexar a representação de incorporações de vetores de seus dados. Crie campos para os seguintes dados:
-
Um campo para os vetores gerados do texto em sua fonte de dados pelo modelo de incorporação de sua escolha.
-
Um campo para os fragmentos de texto extraídos dos arquivos na fonte de dados.
-
Campos para metadados de arquivos de origem que o Amazon Bedrock gerencia.
-
(Se você usar um banco de dados do Amazon Aurora e desejar configurar a filtragem de metadados) Campos para metadados que você associa aos arquivos de origem. Se você planejar configurar a filtragem em outros armazenamentos de vetores, não precisará configurar esses campos para filtragem.
É possível criptografar armazenamentos de vetores de terceiros com uma chave do KMS. Para obter mais informações, consulte Criptografar recursos da base de conhecimento.
Selecione a guia correspondente ao serviço de armazenamento de vetores que você usará para criar o índice de vetores.
nota
Sua escolha do modelo de incorporação e das dimensões vetoriais pode afetar as opções de armazenamento de vetores disponíveis. Se você não conseguir usar o armazenamento de vetores de sua preferência, escolha opções compatíveis de modelo de incorporação e dimensões vetoriais.
- Amazon OpenSearch Serverless
-
-
Para configurar permissões e criar uma coleção de pesquisa vetorial no Amazon OpenSearch Sem Servidor no Console de gerenciamento da AWS, siga as etapas 1 e 2 em Como trabalhar com coleções de pesquisa vetorial no Guia do desenvolvedor do Amazon OpenSearch Service. Observe as seguintes considerações ao configurar a coleção:
-
Forneça um nome e uma descrição de sua escolha à coleção.
-
Para tornar a coleção privada, selecione Criação padrão na seção Segurança. Na seção Configurações de acesso à rede, selecione VPC como o Tipo de acesso e escolha um endpoint da VPC. Para obter mais informações sobre como configurar um endpoint da VPC para uma coleção do Amazon OpenSearch Sem Servidor, consulte Acessar o Amazon OpenSearch Sem Servidor usando um endpoint de interface (AWS PrivateLink) no Guia do desenvolvedor do Amazon OpenSearch Service.
-
-
Depois que a coleção for criada, anote o ARN da coleção para uso ao criar a base de conhecimento.
-
No painel de navegação à esquerda, Coleções em Sem servidor. Selecione a sua coleção de pesquisa vetorial.
-
Selecione a guia Índices. Escolha Criar índice vetorial.
-
Na seção Detalhes do índice vetorial, insira um nome para o índice no campo Nome do índice vetorial.
-
Na seção Campos vetoriais, escolha Adicionar campo vetorial. O Amazon Bedrock armazena as incorporações de vetores da fonte de dados nesse campo. Forneça as seguintes configurações:
-
Nome do campo de vetor: forneça um nome para o campo (por exemplo,
embeddings). -
Mecanismo: o mecanismo de vetores usado para pesquisa. Selecione faiss.
-
Dimensões: o número de dimensões no vetor. Consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter:
Modelo Dimensões Incorporador do Titan G1 - Text 1.536 Incorporador de Texto do Titan v2 1.024, 512 e 256 Embed da Cohere em inglês 1,024 Embed da Cohere multilíngue 1,024 -
Métrica de distância: a métrica usada para medir a semelhança entre vetores. Recomendamos usar Euclidiano para incorporações de vetores de ponto flutuante.
-
-
Expanda a seção Gerenciamento de metadados e adicione dois campos para configurar o índice de vetores para armazenar metadados adicionais que a base de conhecimento pode recuperar com vetores. A seguinte tabela descreve os campos e os valores a serem especificados para cada campo:
Descrição do campo Mapeamento do campo Tipo de dados Filtráveis O Amazon Bedrock fragmenta o texto bruto nos dados e armazena os fragmentos nesse campo. Nome de sua escolha (por exemplo, text)String Verdadeiro O Amazon Bedrock armazena metadados relacionados à base de conhecimento nesse campo. Nome de sua escolha (por exemplo, bedrock-metadata)String Falso -
Anote os nomes que escolher para o nome do índice de vetores, o nome do campo vetorial e os nomes de campo de mapeamento do gerenciamento de metadados para criar a base de conhecimento. Escolha Criar.
Depois que o índice de vetores for criado, você poderá prosseguir com a criação da base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.
Campo Campo correspondente na configuração da base de conhecimento (Console) Campo correspondente na configuração da base de conhecimento (API) Descrição ARN de coleção ARN de coleção collectionARN O nome do recurso da Amazon (ARN) da coleção de pesquisa vetorial. Nome do índice de vetores Nome do índice de vetores vectorIndexName O nome do índice de vetores. Nome do campo de vetor Campo vetorial vectorField O nome do campo no qual armazenar incorporações de vetores das fontes de dados. Gerenciamento de metadados (primeiro campo de mapeamento) Campo de texto textField O nome do campo no qual armazenar o texto bruto das fontes de dados. Gerenciamento de metadados (segundo campo de mapeamento) Campo de metadados gerenciados pelo Bedrock metadataField O nome do campo no qual armazenar os metadados que o Amazon Bedrock gerencia. Para obter documentação detalhada sobre como configurar um armazenamento de vetores no Amazon OpenSearch Sem Servidor, consulte Como trabalhar com coleções de pesquisa vetorial no Guia do desenvolvedor do Amazon OpenSearch Service.
-
- Amazon OpenSearch Service Managed Clusters
-
Importante
-
Antes de usar qualquer recurso de domínio nos clusters gerenciados do OpenSearch, é necessário configurar determinadas permissões e políticas de acesso do IAM. Para obter mais informações, consulte Pré-requisitos e permissões necessários para usar clusters gerenciados do OpenSearch com as Bases de Conhecimento do Amazon Bedrock.
-
Se você encontrar falhas na ingestão de dados, isso pode indicar capacidade insuficiente do domínio do OpenSearch. Para resolver esse problema, aumente a capacidade do domínio provisionando IOPS mais altas e aumentando as configurações de throughput. Para ter mais informações, consulte Práticas operacionais recomendadas para o Amazon OpenSearch Service.
-
Para criar um domínio e um índice de vetores no cluster do OpenSearch no Console de gerenciamento da AWS, siga as etapas descritas em Criar e gerenciar domínios do OpenSearch Service no Guia do desenvolvedor do Amazon OpenSearch Service.
Observe as seguintes considerações ao configurar seu domínio:
-
Atribua um nome ao domínio de sua preferência.
-
Recomendamos que você use a opção de Criação fácil para começar rapidamente a criar seu domínio.
nota
Essa opção oferece um domínio com baixo throughput. Se você tiver workloads maiores que exijam um throughput mais alto, escolha a opção Criação padrão. É possível ajustar a capacidade posteriormente, conforme necessário. Com essa opção, você pode começar com a capacidade mais baixa, que pode ser modificada posteriormente, conforme a necessidade.
-
Para “Rede”, você deve escolher Acesso público. Não é possível usar os domínios do OpenSearch que estão por trás de uma VPC em sua base de conhecimento.
-
Em Versão, se você estiver usando incorporações de vetores binários, as Bases de Conhecimento do Amazon Bedrock exigirão uma versão de mecanismo 2.16 ou posterior. Além disso, é necessária uma versão 2.13 ou posterior para criar um índice k-NN. Para ter mais informações, consulte Pesquisa de k-NN no Guia do desenvolvedor do Amazon OpenSearch Service.
-
Recomendamos que você use o modo de pilha dupla.
-
É recomendável habilitar o Controle de acesso refinado para proteger os dados em seu domínio e controlar ainda mais as permissões que concedem ao perfil de serviço da base de conhecimento acesso ao domínio do OpenSearch e autorização para fazer solicitações.
-
Deixe todas as outras configurações no modo padrão e escolha Criar para criar seu domínio.
-
-
Depois que o domínio for criado, clique nele para anotar o ARN do domínio e o endpoint do domínio para quando você criar a base de conhecimento.
-
Depois de criar o domínio, você pode criar um índice de vetores executando os comandos a seguir em um painel do OpenSearch ou usando comandos curl. Para obter mais informações, consulte a documentação do OpenSearch
. Ao executar o comando:
-
Forneça um nome do campo de vetor (por exemplo,
embeddings). -
O vetor usado para a pesquisa deve ser faiss. O nmslib não é compatível.
-
Com relação ao número de dimensões no vetor, consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter:
nota
O modelo Incorporador de Texto do Titan v2 permite várias dimensões. Também pode ser 256 ou 512.
Modelo Dimensões Incorporador de Texto do Titan G1 1.536 Incorporador de Texto do Titan v2 1.024, 512 e 256 Embed da Cohere em inglês 1,024 Embed da Cohere multilíngue 1,024 -
É possível adicionar dois campos para configurar o índice de vetores para armazenar metadados adicionais que a base de conhecimento pode recuperar com vetores. A seguinte tabela descreve os campos e os valores a serem especificados para cada um deles:
Descrição do campo Mapeamento do campo O Amazon Bedrock fragmenta o texto bruto nos dados e armazena os fragmentos nesse campo. Especificado como um objeto (por exemplo, AMAZON_BEDROCK_TEXT_CHUNK).O Amazon Bedrock armazena metadados relacionados à base de conhecimento nesse campo. Especificado como um objeto (por exemplo, AMAZON_BEDROCK_METADATA).
PUT /<index-name>{ "settings": { "index": { "knn": true } }, "mappings": { "properties": { "<vector-name>": { "type": "knn_vector", "dimension":<embedding-dimension>, "data_type": "binary", # Only needed for binary embeddings "space_type": "l2" | "hamming", # Use l2 for float embeddings and hamming for binary embeddings "method": { "name": "hnsw", "engine": "faiss", "parameters": { "ef_construction": 128, "m": 24 } } }, "AMAZON_BEDROCK_METADATA": { "type": "text", "index": "false" }, "AMAZON_BEDROCK_TEXT_CHUNK": { "type": "text", "index": "true" } } } } -
-
Anote os o endpoint e o ARN do domínio, bem como os nomes que você escolher para o nome do índice de vetores, o nome do campo vetorial e os nomes de campo de mapeamento do gerenciamento de metadados para criar a base de conhecimento.
Depois que o índice de vetores for criado, você poderá prosseguir com a criação da base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.
Campo Campo correspondente na configuração da base de conhecimento (Console) Campo correspondente na configuração da base de conhecimento (API) Descrição ARN do domínio ARN do domínio domainARN O nome do recurso da Amazon (ARN) do domínio do OpenSearch. Endpoint do domínio Endpoint do domínio domainEndpoint O endpoint para conexão com o domínio do OpenSearch. Nome do índice de vetores Nome do índice de vetores vectorIndexName O nome do índice de vetores. Nome do campo de vetor Campo vetorial vectorField O nome do campo no qual armazenar incorporações de vetores das fontes de dados. Gerenciamento de metadados (primeiro campo de mapeamento) Campo de texto textField O nome do campo no qual armazenar o texto bruto das fontes de dados. Gerenciamento de metadados (segundo campo de mapeamento) Campo de metadados gerenciados pelo Bedrock metadataField O nome do campo no qual armazenar os metadados que o Amazon Bedrock gerencia. -
- Amazon S3 Vectors
-
O Amazon S3 Vectors oferece armazenamento de vetores econômico no Amazon S3 que pode ser usado para armazenar e consultar dados de vetores. Ele oferece armazenamento durável e elástico de grandes conjuntos de dados de vetores com desempenho de consulta de menos de um segundo. O Amazon S3 Vectors é mais adequado para workloads de consulta pouco frequentes e pode ajudar a reduzir os custos quando usado em aplicações de geração aumentada via recuperação (RAG) e pesquisa semântica.
Importante
A integração do Amazon S3 Vectors com as Bases de Conhecimento do Amazon Bedrock está em versão prévia e sujeita a alterações.
O Amazon S3 Vectors introduz buckets de vetores do S3, que você pode consultar com base no significado semântico e na similaridade. Ele pode ser usado para fornecer tempos de resposta a consultas de menos de um segundo e reduzir os custos ao armazenar, acessar e consultar dados vetoriais em grande escala sem provisionar nenhuma infraestrutura. Dentro de um bucket de vetores, você pode organizar os dados vetoriais dentro de índices de vetores. Seu bucket de vetores pode ter vários índices de vetores, e cada índice pode conter milhões de vetores. Para ter mais informações, consulte Amazon S3 Vectors no Guia do usuário do Amazon S3.
nota
-
Você pode criar uma base de conhecimento para o Amazon S3 Vectors em qualquer Região da AWS em que o Amazon Bedrock e o Amazon S3 Vectors estão disponíveis. Para ter informações sobre a disponibilidade regional do Amazon S3 Vectors, consulte Amazon S3 Vectors no Guia do usuário do Amazon S3.
-
Ao criar uma base de conhecimento para o Amazon S3 Vectors, não é possível usar fragmentação hierárquica. Para ter informações sobre estratégias de fragmentação, consulte Como a fragmentação de conteúdo funciona para bases de conhecimento.
Suporte a metadados
Depois de criar um índice de vetores, ao adicionar dados vetoriais ao índice, você pode anexar metadados como pares de chave-valor a cada vetor. Por padrão, todos os metadados anexados a um vetor são filtráveis e podem ser usados como filtros em uma consulta de pesquisa por similaridade. Os metadados filtráveis podem ser usados para filtrar consultas recebidas com base em um conjunto de condições, como datas, categorias ou preferências do usuário.
Ao criar o índice de vetores, você também pode configurar os metadados para não serem filtráveis. Os índices de vetores do Amazon S3 permitem os tipos string, booliano e número. Eles podem comportar no máximo 40 KB de metadados para cada vetor. Nesses 40 KB, no máximo 2 KB podem ser usados como metadados filtráveis para cada vetor. Por padrão, os metadados filtráveis também incluem metadados do sistema e textos fragmentados. Portanto, se você precisar de espaço adicional para os metadados do usuário, deverá configurá-los como não filtráveis. O espaço de metadados filtráveis pode ser usado para armazenar as incorporações após a criação da base de conhecimento.
Se os metadados excederem qualquer um desses limites, isso resultará em um erro ao criar o índice de vetores. Para ter mais informações, consulte Amazon S3 Vectors no Guia do usuário do Amazon S3.
Permissões obrigatórias
Sua política do IAM deve permitir que o Amazon Bedrock acesse o índice de vetores no bucket de vetores do S3. Para obter mais informações sobre as permissões do necessárias, consulte Criar um perfil de serviço para o Amazon Bedrock Knowledge Bases.
Criar um bucket e um índice de vetores do S3
Para usar o Amazon S3 Vectors com sua base de conhecimento, você precisa criar um bucket e um índice de vetores do S3. Você pode criar um bucket e um índice de vetores usando o console do Amazon S3, a AWS CLI ou o SDK da AWS. Para obter instruções, consulte Inserir vetores em um índice de vetores no Guia do usuário do Amazon S3.
Observe as considerações a seguir ao criar seu bucket e índice de vetores no console do Amazon S3
. -
Ao criar seu bucket de vetores do S3, observe as considerações a seguir.
-
Forneça nome de bucket de vetores exclusivo.
-
(Opcional) O Amazon S3 criptografará automaticamente os dados usando a criptografia do lado do servidor com chaves gerenciadas pelo Amazon S3 (SSE-S3) padrão. Em vez disso, você pode optar por usar essa criptografia padrão ou a criptografia do lado do servidor com chaves do AWS Key Management Service (SSE-KMS).
nota
Não é possível alterar o tipo de criptografia depois que o bucket de vetores é criado.
Para obter instruções detalhadas, consulte Criptografia com chaves do KMS.
-
-
Depois de criar o bucket de vetores do S3, anote o respectivo nome do recurso da Amazon (ARN) para usá-lo ao criar a base de conhecimento.
-
Escolha o bucket de vetores que você criou e, em seguida, crie um índice de vetores. Ao criar o índice de vetores, observe as considerações a seguir.
-
Nome do índice de vetores: forneça um nome para o campo (por exemplo,
embeddings). -
Dimensões: o número de dimensões no vetor. As dimensões devem ter um valor entre 1 e 4.096. Consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter com base na sua seleção de modelo de incorporação:
Modelo Dimensões Incorporador do Titan G1 - Text 1.536 Incorporador de Texto do Titan v2 1.024, 512 e 256 Embed da Cohere em inglês 1,024 Embed da Cohere multilíngue 1,024 -
nota
O Amazon S3 Vectors permite apenas incorporações de ponto flutuante. Não há compatibilidade com incorporações binárias.
Métrica de distância: a métrica usada para medir a semelhança entre vetores. Você pode usar Cosseno ou Euclidiano.
-
-
Expanda Configurações adicionais e forneça quaisquer metadados não filtráveis no campo Metadados não filtráveis.
nota
Se você presume que os fragmentos de texto excederão o espaço de metadados de 2 KB, recomendamos adicionar o campo de texto
AMAZON_BEDROCK_TEXTeAMAZON_BEDROCK_METADATAcomo chaves de metadados não filtráveis. A base de conhecimento usará esses campos para armazenar os fragmentos de texto e os metadados do sistema.É possível configurar até dez chaves de metadados não filtráveis. Escolha Adicionar chave e, em seguida, adicione
AMAZON_BEDROCK_TEXTeAMAZON_BEDROCK_METADATAcomo chaves. -
Crie o índice de vetores e anote o respectivo nome do recurso da Amazon (ARN) para usá-lo ao criar a base de conhecimento.
Criar base de conhecimento para o bucket de vetores do S3
Depois de reunir essas informações, você poderá começar a criar a da base de conhecimento. Ao criar a base de conhecimento com o bucket de vetores do S3, você precisará fornecer o respectivo ARN e o índice de vetores. O índice de vetores armazenará as incorporações geradas das fontes de dados. A seguinte tabela resume onde você inserirá cada informação:
Campo Campo correspondente na configuração da base de conhecimento (Console) Campo correspondente na configuração da base de conhecimento (API) Descrição ARN do bucket de vetores ARN do bucket de vetores do S3 vectorBucketArn O nome do recurso da Amazon (ARN) do bucket de vetores do S3. ARN do índice de vetores ARN do índice de vetores do S3 vectorIndexARN O nome do recurso da Amazon (ARN) do índice de vetores do bucket de vetores do S3. -
- Amazon Aurora (RDS)
-
-
Crie um cluster, um esquema e uma tabela de banco de dados (DB) do Amazon Aurora seguindo as etapas em Usar o Aurora PostgreSQL como a base de conhecimento. Ao criar a tabela, configure-a com as colunas e os tipos de dados a seguir. É possível usar nomes de colunas de sua preferência em vez dos listados na tabela acima. Anote os nomes das colunas escolhidos para poder fornecê-los durante a configuração da base de conhecimento.
Você deve fornecer esses campos antes de criar a base de conhecimento. Eles não podem ser atualizados depois que a base de conhecimento for criada.
Importante
O cluster do Aurora deve residir na mesma Conta da AWS em que a base de conhecimento foi criada para o Amazon Bedrock.
Nome da coluna Tipo de dados Campo correspondente na configuração da base de conhecimento (console) Campo correspondente na configuração da base de conhecimento (API) Descrição id Chave primária de UUID Chave primária primaryKeyFieldContém identificadores exclusivos para cada registro. incorporação Vetor Campo vetorial vectorFieldContém as incorporações de vetores das fontes de dados. fragmentos Texto Campo de texto textFieldContém os fragmentos de texto bruto das fontes de dados. metadata JSON Campo de metadados gerenciados pelo Bedrock metadataFieldContém os metadados necessários para realizar a atribuição da fonte e permitir a ingestão e a consulta de dados. custom_metadata JSONB Campo de metadados personalizados customMetadataFieldCampo opcional que indica a coluna em que o Amazon Bedrock gravará todas as informações de qualquer arquivo de metadados das fontes de dados. -
Você deve criar um índice nas colunas vetor e texto para os campos de texto e incorporações. Se você estiver usando o campo de metadados personalizados, também deverá criar um índice invertido generalizado (GIN) nessa coluna. Os GINs podem ser usados para pesquisar com eficiência pares de chave-valor em documentos jsonb para filtragem de metadados. Para ter mais informações, consulte jsonb indexing
na documentação do PostgreSQL. Nome da coluna Crie um índice em Obrigatório? vetor CREATE INDEX ON bedrock_integration.bedrock_kb USING hnsw (embedding vector_cosine_ops);Sim texto CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('simple', chunks));Sim metadados personalizados CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (custom_metadata);Somente se você tiver criado a coluna de metadados personalizada. -
(Opcional) Se você adicionou metadados aos arquivos para filtragem, recomendamos fornecer o nome da coluna no campo de metadados personalizados para armazenar todos os metadados em uma única coluna. Durante a ingestão de dados, essa coluna será preenchida com todas as informações nos arquivos de metadados de suas fontes de dados. Se você optar por fornecer esse campo, deverá criar um GIN nessa coluna.
nota
Se, em vez de metadados numéricos, você costuma usar filtros de intervalo para otimizar o desempenho, crie um índice para a chave específica. Por exemplo, se você usar filtros como
"lessThan": { "key": "year", "value": 1989 }, crie um índice de expressão na chaveyear. Para ter mais informações, consulte Indexes on expressionsna documentação do PostgreSQL. CREATE INDEX ON your_table ((custom_metadata->>'year')::double precisionComo alternativa, se você não fornecer esse nome de campo, crie uma coluna para cada atributo de metadados em seus arquivos e especifique o tipo de dados (texto, número ou booliano). Por exemplo, se o atributo
genreexistir na fonte de dados, você deve adicionar uma coluna chamadagenree especificartextcomo o tipo de dados. Durante a ingestão de dados, essas colunas separadas serão preenchidas com os valores dos atributos correspondentes. -
Configure um segredo do AWS Secrets Manager para o cluster de banco de dados do Aurora seguindo as etapas em Gerenciamento de senhas com o Amazon Aurora e o AWS Secrets Manager.
-
Anote as informações a seguir depois de criar o cluster de banco de dados e configurar o segredo.
Campo na configuração da base de conhecimento (console) Campo na configuração da base de conhecimento (API) Descrição ARN do cluster do banco de dados do Amazon Aurora resourceArn O ARN do cluster do banco de dados. Nome do banco de dados databaseName O nome do banco de dados Nome da tabela tableName O nome da tabela no cluster do banco de dados. ARN do segredo credentialsSecretArn O ARN da chave do AWS Secrets Manager para o cluster do banco de dados.
-
- Neptune Analytics graphs (GraphRAG)
-
-
Para criar um armazenamento de grafos e vetores no Neptune Analytics no Console de gerenciamento da AWS, siga as etapas descritas em Indexação de vetores no Neptune Analytics no Guia do usuário do Neptune Analytics.
nota
Para usar o GraphRAG do Neptune, crie um grafo vazio do Neptune Analytics com um índice de pesquisa vetorial. O índice de pesquisa vetorial só pode ser criado quando o grafo for criado. Ao criar um grafo do Neptune Analytics no console, especifique a dimensão do índice em Configurações de pesquisa vetorial próximo ao final do processo.
Observe as seguintes considerações ao criar o grafo:
-
Atribua um grafo a um nome de sua preferência.
-
Em Fonte de dados, escolha Criar um grafo vazio e especifique o número de unidades de capacidade otimizadas para memória do Neptune (m-NCUs) a serem alocadas. Cada m-NCU tem cerca de 1 GiB de capacidade de memória e de computação e rede correspondentes.
nota
A capacidade do grafo pode ser modificada posteriormente. Recomendamos que você comece com a instância menor e depois escolha uma instância diferente, se necessário.
-
Você pode manter as configurações padrão de conectividade de rede. O Amazon Bedrock criará uma conexão de rede com o grafo do Neptune Analytics ao qual você associa a base de conhecimento. Você não precisa configurar conectividade pública ou endpoints privados para o grafo.
-
Em Configurações de pesquisa vetorial, escolha Usar dimensão vetorial e especifique o número de dimensões em cada vetor.
nota
O número de dimensões em cada vetor deve corresponder às dimensões vetoriais no modelo de incorporação. Consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter:
Modelo Dimensões Incorporador do Titan G1 - Text 1.536 Incorporador de Texto do Titan v2 1.024, 512 e 256 Embed da Cohere em inglês 1,024 Embed da Cohere multilíngue 1,024 -
Mantenha todas as outras configurações padrão e crie o grafo.
-
-
Depois que o grafo for criado, clique nele para anotar o ARN do recurso e as dimensões vetoriais para usá-los ao criar a base de conhecimento. Ao escolher o modelo de incorporação no Amazon Bedrock, escolha um modelo com as mesmas dimensões das dimensões vetoriais que você configurou no grafo do Neptune Analytics.
Depois que o índice de vetores for criado, você poderá prosseguir com a criação da base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.
Campo Campo correspondente na configuração da base de conhecimento (Console) Campo correspondente na configuração da base de conhecimento (API) Descrição ARN do grafo ARN do grafo do Neptune Analytics graphARN O nome do recurso da Amazon (ARN) do grafo do Neptune Analytics. Gerenciamento de metadados (primeiro campo de mapeamento) Nome do campo de texto textField O nome do campo no qual armazenar o texto bruto das fontes de dados. Você pode fornecer qualquer valor para esse campo; por exemplo, texto. Gerenciamento de metadados (segundo campo de mapeamento) Campo de metadados gerenciados pelo Bedrock metadataField O nome do campo no qual armazenar os metadados que o Amazon Bedrock gerencia. Você pode fornecer qualquer valor para esse campo; por exemplo, metadados. -
- Pinecone
-
nota
Ao usar o Pinecone, você concorda em autorizar a AWS a acessar a fonte de terceiros designada em seu nome para fornecer os serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.
Para obter a documentação detalhada sobre como configurar um armazenamento de vetores no Pinecone, consulte Pinecone como base de conhecimento do Amazon Bedrock
. Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:
-
URL do endpoint: o URL do endpoint da sua página de gerenciamento de índices.
-
ARN do segredo das credenciais: o nome do recurso da Amazon (ARN) do segredo que você criou no AWS Secrets Manager que contém o nome de usuário e a senha de um usuário do banco de dados.
-
(Opcional) Chave do KMS gerenciada pelo cliente para o ARN do segredo das credenciais: se você tiver criptografado o ARN do segredo de suas credenciais, forneça a chave do KMS para que o Amazon Bedrock possa descriptografá-la.
-
Name Space: (opcional) o namespace a ser usado para gravar novos dados no banco de dados. Para obter mais informações, consulte Usar namespaces
.
Há configurações adicionais que você deve fornecer ao criar um índice do Pinecone:
-
Nome do campo de texto: o nome do campo no qual o Amazon Bedrock deve armazenar o texto de fragmento bruto.
-
Nome do campo de metadados: o nome do campo no qual o Amazon Bedrock deve armazenar os metadados de atribuição de origem.
Para acessar o índice do Pinecone, forneça a chave da API do Pinecone ao Amazon Bedrock por meio do AWS Secrets Manager.
Como configurar um segredo para a sua configuração do Pinecone
-
Siga as etapas em Criar um segredo do AWS Secrets Manager, definindo a chave como
apiKeye o valor como a chave da API para acessar o índice do Pinecone. -
Para encontrar a chave de API, abra o Console do Pinecone
e selecione Chaves de API. -
Depois de criar o segredo, anote o ARN da chave do KMS.
-
Anexe permissões ao perfil de serviço para descriptografar o ARN da chave do KMS seguindo as etapas em Permissões para descriptografar um segredo do AWS Secrets Manager para o armazenamento de vetores que contém a base de conhecimento.
-
Posteriormente, ao criar a base de conhecimento, insira o ARN no campo ARN do segredo das credenciais.
-
- Redis Enterprise Cloud
-
nota
Ao usar o Redis Enterprise Cloud, você concorda em autorizar a AWS a acessar a fonte de terceiros designada em seu nome para fornecer os serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.
Para obter a documentação detalhada sobre como configurar um armazenamento de vetores no Redis Enterprise Cloud, consulte Integração do Redis Enterprise Cloud com o Amazon Bedrock
. Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:
-
URL do endpoint: o URL público do endpoint do banco de dados.
-
Nome do índice de vetores: o nome do índice de vetores do banco de dados.
-
Campo vetorial: o nome do campo em que as incorporações de vetores serão armazenadas. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter.
Modelo Dimensões Incorporador do Titan G1 - Text 1.536 Incorporador de Texto do Titan v2 1.024, 512 e 256 Embed da Cohere em inglês 1,024 Embed da Cohere multilíngue 1,024 -
Campo de texto: o nome do campo em que o Amazon Bedrock armazena os fragmentos de texto bruto.
-
Campo de metadados gerenciado pelo Bedrock: o nome do campo em que o Amazon Bedrock armazena metadados relacionados à base de conhecimento.
Para acessar o cluster do Redis Enterprise Cloud, forneça a configuração de segurança do Redis Enterprise Cloud ao Amazon Bedrock por meio do AWS Secrets Manager.
Como configurar um segredo para a sua configuração do Redis Enterprise Cloud
-
Habilite o TLS para usar seu banco de dados com o Amazon Bedrock seguindo as etapas em Transport Layer Security (TLS)
. -
Siga as etapas em Criar um segredo do AWS Secrets Manager. Configure as seguintes chaves com os valores adequados da configuração do Redis Enterprise Cloud no segredo:
-
username: o nome de usuário para acessar o banco de dados do Redis Enterprise Cloud. Para encontrar seu nome de usuário, consulte a seção Segurança do banco de dados no console do Redis. -
password: a senha para acessar o banco de dados do Redis Enterprise Cloud. Para encontrar sua senha, consulte a seção Segurança do banco de dados no console do Redis. -
serverCertificate: o conteúdo do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates. -
clientPrivateKey: a chave privada do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates. -
clientCertificate: a chave pública do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.
-
-
Depois de criar o segredo, anote o ARN dele. Posteriormente, ao criar a base de conhecimento, insira o ARN no campo ARN do segredo das credenciais.
-
- MongoDB Atlas
-
nota
Ao usar o MongoDB Atlas, você concorda em autorizar a AWS a acessar a fonte de terceiros designada em seu nome para fornecer os serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.
Para ver uma documentação detalhada sobre como configurar um armazenamento de vetores no MongoDB Atlas, consulte Launch a Fully Managed RAG Workflow With MongoDB Atlas and Amazon Bedrock
. Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:
-
URL do endpoint: o URL do endpoint do cluster do MongoDB Atlas.
-
Nome do banco de dados: o nome do banco de dados no cluster do MongoDB Atlas.
-
Nome da coleção: o nome da coleção no banco de dados.
-
ARN do segredo das credenciais: o nome do recurso da Amazon (ARN) do segredo que você criou no AWS Secrets Manager que contém o nome de usuário e a senha de um usuário do banco de dados em seu cluster do MongoDB Atlas. O segredo deve conter chaves chamadas
usernameepassword. -
(Opcional) Chave do KMS gerenciada pelo cliente para o ARN do segredo das credenciais: se você tiver criptografado o ARN do segredo de suas credenciais, forneça a chave do KMS para que o Amazon Bedrock possa descriptografá-la.
Há configurações adicionais de Mapeamento de campos que você deve fornecer ao criar um índice do MongoDB Atlas:
-
Nome do índice de vetores: o nome do índice de pesquisa vetorial do MongoDB Atlas em sua coleção.
-
Nome do campo de vetor: o nome do campo no qual o Amazon Bedrock deve armazenar incorporações de vetores.
-
Nome do campo de texto: o nome do campo no qual o Amazon Bedrock deve armazenar o texto de fragmento bruto.
-
Nome do campo de metadados: o nome do campo no qual o Amazon Bedrock deve armazenar os metadados de atribuição de origem.
-
(Opcional) Nome do índice de pesquisa de texto: o nome do Índice de pesquisa vetorial do MongoDB Atlas em sua coleção.
Importante
Se você planeja usar a filtragem de metadados com sua base de conhecimento do MongoDB Atlas, deverá configurar manualmente os filtros em seu índice de vetores. A filtragem de metadados não funciona por padrão e requer configuração adicional na configuração do índice de vetores do MongoDB Atlas.
(Opcional) Para que o Amazon Bedrock se conecte ao cluster do MongoDB Atlas via AWS PrivateLink, consulte Fluxo de trabalho de RAG com o MongoDB Atlas usando o Amazon Bedrock
. -