Pré-requisitos para usar o armazenamento de vetores que você criou para uma base de conhecimento

Para armazenar as incorporações de vetores nas quais seus documentos são convertidos, use um armazenamento de vetores. As Bases de Conhecimento do Amazon Bedrock oferece um fluxo de criação rápida para alguns dos armazenamentos de vetores. Portanto, se preferir que o Amazon Bedrock crie automaticamente um índice de vetores para você em um desses armazenamento de vetores, ignore esse pré-requisito e prossiga para Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento do Amazon Bedrock.

Se você quiser armazenar incorporações de vetores binários em vez de incorporações de vetores de ponto flutuante padrão (float32), use um armazenamento de vetores que permita vetores binários.

nota

Os clusters Amazon OpenSearch Serverless e Amazon OpenSearch Managed são os únicos armazenamentos vetoriais que oferecem suporte ao armazenamento de vetores binários.

É possível configurar seu próprio armazenamento de vetores compatível para indexar a representação de incorporações de vetores de seus dados. Crie campos para os seguintes dados:

Um campo para os vetores gerados do texto em sua fonte de dados pelo modelo de incorporação de sua escolha.
Um campo para os fragmentos de texto extraídos dos arquivos na fonte de dados.
Campos para metadados de arquivos de origem que o Amazon Bedrock gerencia.
(Se você usar um banco de dados do Amazon Aurora e desejar configurar a filtragem de metadados) Campos para metadados que você associa aos arquivos de origem. Se você planejar configurar a filtragem em outros armazenamentos de vetores, não precisará configurar esses campos para filtragem.

É possível criptografar armazenamentos de vetores de terceiros com uma chave do KMS. Para obter mais informações, consulte Criptografar recursos da base de conhecimento.

Selecione a guia correspondente ao serviço de armazenamento de vetores que você usará para criar o índice de vetores.

nota

Sua escolha do modelo de incorporação e das dimensões vetoriais pode afetar as opções de armazenamento de vetores disponíveis. Se você não conseguir usar o armazenamento de vetores de sua preferência, escolha opções compatíveis de modelo de incorporação e dimensões vetoriais.

Amazon OpenSearch Serverless

Para configurar permissões e criar uma coleção de pesquisa vetorial no Amazon OpenSearch Serverless no Console de gerenciamento da AWS, siga as etapas 1 e 2 em Trabalhando com coleções de pesquisa vetorial no Amazon OpenSearch Service Developer Guide. Observe as seguintes considerações ao configurar a coleção:
1. Forneça um nome e uma descrição de sua escolha à coleção.
2. Para tornar a coleção privada, selecione Criação padrão na seção Segurança. Na seção Configurações de acesso à rede, selecione VPC como o Tipo de acesso e escolha um endpoint da VPC. Para obter mais informações sobre como configurar um VPC endpoint para uma coleção Amazon OpenSearch Serverless, consulte Acesse o Amazon OpenSearch Serverless usando um endpoint de interface ()AWS PrivateLink no Amazon Service Developer Guide. OpenSearch
Depois que a coleção for criada, anote o ARN da coleção para uso ao criar a base de conhecimento.
No painel de navegação à esquerda, Coleções em Sem servidor. Selecione a sua coleção de pesquisa vetorial.
Selecione a guia Índices. Escolha Criar índice vetorial.
Na seção Detalhes do índice vetorial, insira um nome para o índice no campo Nome do índice vetorial.

Na seção Campos vetoriais, escolha Adicionar campo vetorial. O Amazon Bedrock armazena as incorporações de vetores da fonte de dados nesse campo. Forneça as seguintes configurações:

Nome do campo de vetor: forneça um nome para o campo (por exemplo, embeddings).
Mecanismo: o mecanismo de vetores usado para pesquisa. Selecione faiss.

Dimensões: o número de dimensões no vetor. Consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter:

Modelo	Dimensões
Incorporador de Texto do Titan G1	1.536
Incorporador de Texto do Titan v2	1.024, 512 e 256
Embed da Cohere em inglês	1,024
Embed da Cohere multilíngue	1,024

Métrica de distância: a métrica usada para medir a semelhança entre vetores. Recomendamos usar Euclidiano para incorporações de vetores de ponto flutuante.

Expanda a seção Gerenciamento de metadados e adicione dois campos para configurar o índice de vetores para armazenar metadados adicionais que a base de conhecimento pode recuperar com vetores. A seguinte tabela descreve os campos e os valores a serem especificados para cada campo:

Descrição do campo	Mapeamento do campo	Tipo de dados	Filtráveis
O Amazon Bedrock fragmenta o texto bruto nos dados e armazena os fragmentos nesse campo.	Nome de sua escolha (por exemplo, `text`)	String	Verdadeiro
O Amazon Bedrock armazena metadados relacionados à base de conhecimento nesse campo.	Nome de sua escolha (por exemplo, `bedrock-metadata`)	String	Falso

Anote os nomes que escolher para o nome do índice de vetores, o nome do campo vetorial e os nomes de campo de mapeamento do gerenciamento de metadados para criar a base de conhecimento. Escolha Criar.

Depois que o índice de vetores for criado, você poderá prosseguir com a criação da base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.

Campo	Campo correspondente na configuração da base de conhecimento (Console)	Campo correspondente na configuração da base de conhecimento (API)	Description
ARN de coleção	ARN de coleção	collectionARN	O nome do recurso da Amazon (ARN) da coleção de pesquisa vetorial.
Nome do índice de vetores	Nome do índice de vetores	vetor IndexName	O nome do índice de vetores.
Nome do campo de vetor	Campo vetorial	vectorField	O nome do campo no qual armazenar incorporações de vetores das fontes de dados.
Gerenciamento de metadados (primeiro campo de mapeamento)	Campo de texto	textField	O nome do campo no qual armazenar o texto bruto das fontes de dados.
Gerenciamento de metadados (segundo campo de mapeamento)	Bedrock-managed campo de metadados	metadataField	O nome do campo no qual armazenar os metadados que o Amazon Bedrock gerencia.

Para obter uma documentação mais detalhada sobre a configuração de um armazenamento vetorial no Amazon OpenSearch Serverless, consulte Como trabalhar com coleções de pesquisa vetorial no Amazon OpenSearch Service Developer Guide.

Amazon OpenSearch Service Managed Clusters

Importante

Antes de usar qualquer recurso de domínio em clusters OpenSearch gerenciados, você precisa configurar determinadas permissões e políticas de acesso do IAM. Para obter mais informações, consulte Pré-requisitos e permissões necessários para usar clusters OpenSearch gerenciados com as bases de conhecimento Amazon Bedrock.
Se você encontrar falhas na ingestão de dados, isso pode indicar capacidade insuficiente OpenSearch do domínio. Para resolver esse problema, aumente a capacidade do domínio provisionando IOPS mais altas e aumentando as configurações de throughput. Para obter mais informações, consulte Melhores práticas operacionais para o Amazon OpenSearch Service.

Para criar um domínio e um índice vetorial no OpenSearch Cluster in the Console de gerenciamento da AWS, siga as etapas descritas em Criação e gerenciamento de domínios de OpenSearch serviço no Amazon OpenSearch Service Developer Guide.

Observe as seguintes considerações ao configurar seu domínio:
1. Atribua um nome ao domínio de sua preferência.
2. Recomendamos que você use a opção de Criação fácil para começar rapidamente a criar seu domínio.
  
  nota
  Essa opção oferece um domínio com baixo throughput. Se você tiver workloads maiores que exijam um throughput mais alto, escolha a opção Criação padrão. É possível ajustar a capacidade posteriormente, conforme necessário. Com essa opção, você pode começar com a capacidade mais baixa, que pode ser modificada posteriormente, conforme a necessidade.
3. Para Rede, você deve escolher Acesso público. OpenSearch domínios que estão por trás de uma VPC não são compatíveis com sua Base de Conhecimento.
4. Em Versão, se você estiver usando incorporações de vetores binários, as Bases de Conhecimento do Amazon Bedrock exigirão uma versão de mecanismo 2.16 ou posterior. Além disso, é necessária uma versão 2.13 ou posterior para criar um índice k-NN. Para obter mais informações, consulte K-NN Pesquisar no guia do desenvolvedor do Amazon OpenSearch Service.
5. Recomendamos que você use o Dual-stackmodo.
6. Recomendamos que você ative o controle de Fine-grained acesso para proteger os dados em seu domínio e controlar ainda mais as permissões que concedem à sua função de serviço da Base de Conhecimento acesso ao OpenSearch domínio e fazer solicitações.
7. Deixe todas as outras configurações no modo padrão e escolha Criar para criar seu domínio.
Depois que o domínio for criado, escolha-o para anotar o ARN do domínio e o endpoint do domínio para quando você criar a base de conhecimento.

Depois de criar o domínio, você pode criar um índice vetorial executando os seguintes comandos em um OpenSearch painel ou usando comandos curl. Para obter mais informações, consulte a documentação do OpenSearch .

Ao executar o comando:

Forneça um nome do campo de vetor (por exemplo, embeddings).
O vetor usado para a pesquisa deve ser faiss. O nmslib não é compatível.

Com relação ao número de dimensões no vetor, consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter:

nota

O modelo Incorporador de Texto do Titan v2 permite várias dimensões. Também pode ser 256 ou 512.

Modelo	Dimensões
Incorporador de Texto do Titan G1	1.536
Incorporador de Texto do Titan v2	1.024, 512 e 256
Embed da Cohere em inglês	1,024
Embed da Cohere multilíngue	1,024

É possível adicionar dois campos para configurar o índice de vetores para armazenar metadados adicionais que a base de conhecimento pode recuperar com vetores. A seguinte tabela descreve os campos e os valores a serem especificados para cada um deles:

Descrição do campo	Mapeamento do campo
O Amazon Bedrock fragmenta o texto bruto nos dados e armazena os fragmentos nesse campo.	Especificado como um objeto (por exemplo, `AMAZON_BEDROCK_TEXT_CHUNK`).
O Amazon Bedrock armazena metadados relacionados à base de conhecimento nesse campo.	Especificado como um objeto (por exemplo, `AMAZON_BEDROCK_METADATA`).


PUT /<index-name>
{
    "settings": {
        "index": {
            "knn": true
        }
    },
    "mappings": {
        "properties": {
            "<vector-name>": {
                "type": "knn_vector",
                "dimension": <embedding-dimension>,
                "data_type": "binary",          # Only needed for binary embeddings
                "space_type": "l2" | "hamming", # Use l2 for float embeddings and hamming for binary embeddings
                "method": {
                    "name": "hnsw",
                    "engine": "faiss",
                    "parameters": {
                        "ef_construction": 128,
                        "m": 24
                    }
                }
            },

            "AMAZON_BEDROCK_METADATA": {
                "type": "text",
                "index": "false"
            },
            "AMAZON_BEDROCK_TEXT_CHUNK": {
                "type": "text",
                "index": "true"            
            }
        }
    }
}

Campos de metadados personalizados para filtragem

Se você planeja usar a filtragem de metadados com campos de metadados personalizados, deve definir esses campos com um keyword tipo ou como um text tipo com um subcampo. keyword Por exemplo:


"my_custom_field": {
    "type": "text",
    "fields": {
        "keyword": {
            "type": "keyword"
        }
    }
}

Sem essa estrutura, a filtragem de consultas em campos de metadados personalizados falhará com o erro “Reescrever primeiro”.

Anote os o endpoint e o ARN do domínio, bem como os nomes que você escolher para o nome do índice de vetores, o nome do campo vetorial e os nomes de campo de mapeamento do gerenciamento de metadados para criar a base de conhecimento.

Depois que o índice de vetores for criado, você poderá prosseguir com a criação da base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.

Campo	Campo correspondente na configuração da base de conhecimento (Console)	Campo correspondente na configuração da base de conhecimento (API)	Description
ARN do domínio	ARN do domínio	domainARN	O Amazon Resource Name (ARN) do OpenSearch domínio.
Endpoint de domínio	Endpoint de domínio	domainEndpoint	O endpoint para se conectar ao OpenSearch domínio.
Nome do índice de vetores	Nome do índice de vetores	vetor IndexName	O nome do índice de vetores.
Nome do campo de vetor	Campo vetorial	vectorField	O nome do campo no qual armazenar incorporações de vetores das fontes de dados.
Gerenciamento de metadados (primeiro campo de mapeamento)	Campo de texto	textField	O nome do campo no qual armazenar o texto bruto das fontes de dados.
Gerenciamento de metadados (segundo campo de mapeamento)	Bedrock-managed campo de metadados	metadataField	O nome do campo no qual armazenar os metadados que o Amazon Bedrock gerencia.

Amazon S3 Vectors

O Amazon S3 Vectors oferece armazenamento de vetores econômico no Amazon S3 que pode ser usado para armazenar e consultar dados de vetores. Ele oferece armazenamento durável e elástico de grandes conjuntos de dados de vetores com desempenho de consulta de menos de um segundo. O Amazon S3 Vectors é mais adequado para workloads de consulta pouco frequentes e pode ajudar a reduzir os custos quando usado em aplicações de geração aumentada via recuperação (RAG) e pesquisa semântica.

O Amazon S3 Vectors introduz buckets vetoriais do S3, que contêm índices vetoriais que você pode consultar com base no significado semântico e na similaridade. Ele pode ser usado para fornecer tempos de resposta a consultas de menos de um segundo e reduzir os custos ao armazenar, acessar e consultar dados vetoriais em grande escala sem provisionar nenhuma infraestrutura. Dentro de um bucket de vetores, você pode organizar os dados vetoriais dentro de índices de vetores. Seu repositório de vetores pode ter vários índices vetoriais. Para ter mais informações, consulte Amazon S3 Vectors no Guia do usuário do Amazon S3.

nota

Você pode criar uma base de conhecimento para os vetores do Amazon S3 em todos os Região da AWS países em que os vetores Amazon Bedrock e Amazon S3 estão disponíveis. Para ter informações sobre a disponibilidade regional do Amazon S3 Vectors, consulte Amazon S3 Vectors no Guia do usuário do Amazon S3.
Ao usar contagens de tokens muito altas com fragmentação hierárquica nas bases de conhecimento do Amazon Bedrock, você pode exceder os limites máximos de tamanho de metadados, pois as relações entre partes pai-filho e o contexto hierárquico são armazenados como metadados não filtráveis nos vetores do Amazon S3. Para obter mais informações sobre limites de tamanho de metadados por vetor, consulte Limitações e restrições no Guia do usuário do Amazon S3. Para ter informações sobre estratégias de fragmentação, consulte Como a fragmentação de conteúdo funciona para bases de conhecimento.

Suporte a metadados

Você pode anexar metadados como pares de valores-chave a cada vetor. Por padrão, os metadados são filtráveis e podem ser usados em consultas de pesquisa por similaridade para filtrar por condições como datas, categorias ou preferências do usuário.

Você também pode configurar os metadados para não serem filtráveis ao criar o índice vetorial. Os índices de vetores do Amazon S3 permitem os tipos string, booliano e número.

Ao usar os vetores do Amazon S3 com as bases de conhecimento do Amazon Bedrock, você pode anexar até 1 KB de metadados personalizados (incluindo metadados filtráveis e não filtráveis) e 35 chaves de metadados por vetor. Para obter mais informações sobre limites de tamanho de metadados por vetor, consulte Limitações e restrições no Guia do usuário do Amazon S3.

Se os metadados excederem esses limites, o trabalho de ingestão lançará uma exceção ao preencher o índice vetorial. Para ter mais informações, consulte Amazon S3 Vectors no Guia do usuário do Amazon S3.

Permissões obrigatórias

Sua política do IAM deve permitir que o Amazon Bedrock acesse o índice de vetores no bucket de vetores do S3. Para mais informações sobre as permissões necessárias, consulte Criar um perfil de serviço para o Amazon Bedrock Knowledge Bases.

Criar um bucket e um índice de vetores do S3

Para usar o Amazon S3 Vectors com sua base de conhecimento, você precisa criar um bucket e um índice de vetores do S3. Você pode criar um bucket vetorial e um índice usando o console ou AWS SDK do Amazon S3. AWS CLI Para obter instruções, consulte Inserir vetores em um índice de vetores no Guia do usuário do Amazon S3.

Observe as considerações a seguir ao criar seu bucket e índice de vetores no console do Amazon S3.

Ao criar seu bucket de vetores do S3, observe as considerações a seguir.
- Forneça nome de bucket de vetores exclusivo.
- (Opcional) O Amazon S3 criptografará automaticamente os dados usando a Server-side criptografia padrão com as chaves gerenciadas do Amazon S3 (). SSE-S3 Você pode escolher se deseja usar essa criptografia padrão ou a Server-side criptografia com AWS chaves do Serviço de Gerenciamento de Chaves (SSE-KMS) em vez disso.
  
  nota
  Não é possível alterar o tipo de criptografia depois que o bucket de vetores é criado.
  
  Para obter instruções passo a passo, consulte Criptografia com AWS chaves KMS.
Depois de criar o bucket de vetores do S3, anote o respectivo nome do recurso da Amazon (ARN) para usá-lo ao criar a base de conhecimento.

Escolha o bucket de vetores que você criou e, em seguida, crie um índice de vetores. Ao criar o índice de vetores, observe as considerações a seguir.

Nome do índice de vetores: forneça um nome para o campo (por exemplo, embeddings).

Dimensões: o número de dimensões no vetor. As dimensões devem ter um valor entre 1 e 4.096. Consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter com base na sua seleção de modelo de incorporação:

Modelo	Dimensões
Incorporador de Texto do Titan G1	1.536
Incorporador de Texto do Titan v2	1.024, 512 e 256
Embed da Cohere em inglês	1,024
Embed da Cohere multilíngue	1,024

nota
O Amazon S3 Vectors permite apenas incorporações de ponto flutuante. Não há compatibilidade com incorporações binárias.

Métrica de distância: a métrica usada para medir a semelhança entre vetores. Você pode usar Cosseno ou Euclidiano.

Expanda as configurações adicionais e forneça quaisquer metadados não filtráveis no campo de metadados. Non-filterable

É possível configurar até dez chaves de metadados não filtráveis. Escolha Adicionar chave e, em seguida, adicione AMAZON_BEDROCK_TEXT e AMAZON_BEDROCK_METADATA como chaves.
Em Criptografia, escolha Especificar tipo de criptografia. Você tem a opção de usar configurações de bucket para criptografia ou substituir as configurações de criptografia para o índice de vetores. Se você substituir as configurações no nível do bucket, terá a opção de especificar o tipo de criptografia para o índice vetorial como Server-side criptografia com chaves do AWS Key Management Service (SSE-KMS) ou a Server-side criptografia padrão com chaves gerenciadas do Amazon S3 (). SSE-S3 Para obter mais informações sobre como definir a configuração de criptografia para índices vetoriais, consulte Proteção e criptografia de dados em vetores do Amazon S3.
Em Tags (opcional), você pode adicionar tags como pares de valores-chave para ajudar a rastrear e organizar os custos do índice vetorial usando o AWS Billing and Cost Management. Insira uma Key (Chave) e um Value (Valor). Para adicionar outra tag, escolha Add Tag (Adicionar tag). É possível inserir até cinquenta tags a um índice de vetores. Para obter mais informações, consulte Uso de tags com índices vetoriais do Amazon S3.
Crie o índice de vetores e anote o respectivo nome do recurso da Amazon (ARN) para usá-lo ao criar a base de conhecimento.

Criar base de conhecimento para o bucket de vetores do S3

Depois de reunir essas informações, você poderá começar a criar a da base de conhecimento. Ao criar a base de conhecimento com o bucket de vetores do S3, você precisará fornecer o respectivo ARN e o índice de vetores. O índice de vetores armazenará as incorporações geradas das fontes de dados. A seguinte tabela resume onde você inserirá cada informação:

Campo	Campo correspondente na configuração da base de conhecimento (Console)	Campo correspondente na configuração da base de conhecimento (API)	Description
ARN do bucket de vetores	ARN do bucket de vetores do S3	vetor BucketArn	O nome do recurso da Amazon (ARN) do bucket de vetores do S3.
ARN do índice de vetores	ARN do índice de vetores do S3	vectorIndexARN	O nome do recurso da Amazon (ARN) do índice de vetores do bucket de vetores do S3.

Amazon Aurora (RDS)

Crie um cluster, um esquema e uma tabela de banco de dados (DB) do Amazon Aurora seguindo as etapas em Usar o Aurora PostgreSQL como a base de conhecimento. Ao criar a tabela, configure-a com as colunas e os tipos de dados a seguir. É possível usar nomes de colunas de sua preferência em vez dos listados na tabela acima. Anote os nomes das colunas escolhidos para poder fornecê-los durante a configuração da base de conhecimento.

Você deve fornecer esses campos antes de criar a base de conhecimento. Eles não podem ser atualizados depois que a base de conhecimento for criada.

Importante

O cluster Aurora deve residir no mesmo local em Conta da AWS que a base de conhecimento foi criada para o Amazon Bedrock.

Nome da coluna	Tipo de dados	Campo correspondente na configuração da base de conhecimento (console)	Campo correspondente na configuração da base de conhecimento (API)	Description
id	Chave primária de UUID	Chave primária	`primaryKeyField`	Contém identificadores exclusivos para cada registro.
incorporação	Vector	Campo vetorial	`vectorField`	Contém as incorporações de vetores das fontes de dados.
fragmentos	Texto	Campo de texto	`textField`	Contém os fragmentos de texto bruto das fontes de dados.
metadata	JSON	Bedrock-managed campo de metadados	`metadataField`	Contém os metadados necessários para realizar a atribuição da fonte e permitir a ingestão e a consulta de dados.
custom_metadata	JSONB	Campo de metadados personalizados	`customMetadataField`	Campo opcional que indica a coluna em que o Amazon Bedrock gravará todas as informações de qualquer arquivo de metadados das fontes de dados.

Você deve criar um índice nas colunas vetor e texto para os campos de texto e incorporações. Se você estiver usando o campo de metadados personalizados, também deverá criar um índice invertido generalizado (GIN) nessa coluna. Os GINs podem ser usados para pesquisar com eficiência pares de chave-valor em documentos jsonb para filtragem de metadados. Para ter mais informações, consulte jsonb indexing na documentação do PostgreSQL.

Nome da coluna	Crie um índice em	Obrigatório?
incorporação	`CREATE INDEX ON bedrock_integration.bedrock_kb USING hnsw (embedding vector_cosine_ops);`	Sim
fragmentos	`CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('simple', chunks));`	Sim
metadados personalizados	`CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (custom_metadata);`	Somente se você tiver criado a coluna de metadados personalizada.

nota

Para melhorar a precisão e a latência da pesquisa híbrida com conteúdo em inglês, considere usar o dicionário “inglês” em vez de “simples”:


CREATE INDEX ON bedrock_integration.bedrock_kb USING gin (to_tsvector('english', chunks));

nota

Se você usa a filtragem de metadados com sua base de conhecimento, recomendamos habilitar as varreduras de índice iterativas do HNSW (requer pgvector 0.8.0 ou posterior). Sem varreduras iterativas, os filtros seletivos de metadados podem retornar menos resultados do que o esperado, pois a filtragem é aplicada após a varredura do índice HNSW. As varreduras iterativas examinam automaticamente mais do índice até que resultados filtrados suficientes sejam encontrados.


ALTER DATABASE your_database SET hnsw.iterative_scan = 'relaxed_order';
ALTER DATABASE your_database SET hnsw.max_scan_tuples = 20000;

Essas configurações persistem no nível do banco de dados, mas só entram em vigor para novas sessões. Se você estiver usando a API de dados do RDS, aguarde alguns minutos para que as sessões do pool de conexões sejam recicladas antes que as configurações entrem em vigor.

(Opcional) Se você adicionou metadados aos arquivos para filtragem, recomendamos fornecer o nome da coluna no campo de metadados personalizados para armazenar todos os metadados em uma única coluna. Durante a ingestão de dados, essa coluna será preenchida com todas as informações nos arquivos de metadados de suas fontes de dados. Se você optar por fornecer esse campo, deverá criar um GIN nessa coluna.
nota
Se, em vez de metadados numéricos, você costuma usar filtros de intervalo para otimizar o desempenho, crie um índice para a chave específica. Por exemplo, se você usar filtros como "lessThan": { "key": "year", "value": 1989 }, crie um índice de expressão na chave year. Para ter mais informações, consulte Indexes on expressions na documentação do PostgreSQL.
```
CREATE INDEX ON your_table ((custom_metadata->>'year')::double precision
```
Como alternativa, se você não fornecer esse nome de campo, crie uma coluna para cada atributo de metadados em seus arquivos e especifique o tipo de dados (texto, número ou booliano). Por exemplo, se o atributo genre existir na fonte de dados, você deve adicionar uma coluna chamada genre e especificar text como o tipo de dados. Durante a ingestão de dados, essas colunas separadas serão preenchidas com os valores dos atributos correspondentes.
Configure um AWS Secrets Manager segredo para seu cluster de banco de dados Aurora seguindo as etapas em Gerenciamento de senhas com Amazon Aurora e. AWS Secrets Manager

Anote as informações a seguir depois de criar o cluster de banco de dados e configurar o segredo.

Campo na configuração da base de conhecimento (console)	Campo na configuração da base de conhecimento (API)	Description
ARN do cluster do banco de dados do Amazon Aurora	resourceArn	O ARN do cluster do banco de dados.
Nome do banco de dados	databaseName	O nome do banco de dados
Nome da tabela	tableName	O nome da tabela no cluster do banco de dados.
ARN do segredo	credenciais SecretArn	O ARN da AWS Secrets Manager chave para seu cluster de banco de dados

Neptune Analytics graphs (GraphRAG)

Para criar um armazenamento de grafos e vetores no Neptune Analytics no Console de gerenciamento da AWS, siga as etapas descritas em Indexação de vetores no Neptune Analytics no Guia do usuário do Neptune Analytics.

nota

Para usar o GraphRAG do Neptune, crie um grafo vazio do Neptune Analytics com um índice de pesquisa vetorial. O índice de pesquisa vetorial só pode ser criado quando o grafo for criado. Ao criar um grafo do Neptune Analytics no console, especifique a dimensão do índice em Configurações de pesquisa vetorial próximo ao final do processo.

Observe as seguintes considerações ao criar o grafo:

Atribua um grafo a um nome de sua preferência.
Em Fonte de dados, escolha Criar um grafo vazio e especifique o número de unidades de capacidade otimizadas para memória do Neptune (m-NCUs) a serem alocadas. Cada m-NCU tem cerca de 1 GiB de capacidade de memória e de computação e rede correspondentes.

nota
A capacidade do grafo pode ser modificada posteriormente. Recomendamos que você comece com a instância menor e depois escolha uma instância diferente, se necessário.
Você pode manter as configurações padrão de conectividade de rede. O Amazon Bedrock criará uma conexão de rede com o grafo do Neptune Analytics ao qual você associa a base de conhecimento. Você não precisa configurar conectividade pública ou endpoints privados para o grafo.

Em Configurações de pesquisa vetorial, escolha Usar dimensão vetorial e especifique o número de dimensões em cada vetor.

nota

O número de dimensões em cada vetor deve corresponder às dimensões vetoriais no modelo de incorporação. Consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter:

Modelo	Dimensões
Incorporador de Texto do Titan G1	1.536
Incorporador de Texto do Titan v2	1.024, 512 e 256
Embed da Cohere em inglês	1,024
Embed da Cohere multilíngue	1,024

Mantenha todas as outras configurações padrão e crie o grafo.

Depois que o gráfico for criado, escolha-o para anotar o ARN do recurso e as dimensões vetoriais para quando você criar a base de conhecimento. Ao escolher o modelo de incorporação no Amazon Bedrock, escolha um modelo com as mesmas dimensões das dimensões vetoriais que você configurou no grafo do Neptune Analytics.

Depois que o índice de vetores for criado, você poderá prosseguir com a criação da base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.

Campo	Campo correspondente na configuração da base de conhecimento (Console)	Campo correspondente na configuração da base de conhecimento (API)	Description
ARN do grafo	ARN do grafo do Neptune Analytics	graphARN	O nome do recurso da Amazon (ARN) do grafo do Neptune Analytics.
Gerenciamento de metadados (primeiro campo de mapeamento)	Nome do campo de texto	textField	O nome do campo no qual armazenar o texto bruto das fontes de dados. Você pode fornecer qualquer valor para esse campo; por exemplo, texto.
Gerenciamento de metadados (segundo campo de mapeamento)	Bedrock-managed campo de metadados	metadataField	O nome do campo no qual armazenar os metadados que o Amazon Bedrock gerencia. Você pode fornecer qualquer valor para esse campo; por exemplo, metadados.

Pinha

nota

Se você usarPinecone, você concorda em autorizar o acesso AWS à fonte terceirizada designada em seu nome para fornecer serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.

Para obter a documentação detalhada sobre como configurar um armazenamento de vetores no Pinecone, consulte Pinecone como base de conhecimento do Amazon Bedrock.

Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:

URL do endpoint: o URL do endpoint da sua página de gerenciamento de índices.
ARN secreto de credenciais — O nome de recurso da Amazon (ARN) do segredo que você criou AWS Secrets Manager e que contém o nome de usuário e a senha de um usuário do banco de dados.
(Opcional) Chave Customer-managed KMS para seu ARN secreto de credenciais — se você criptografou o ARN secreto de suas credenciais, forneça a chave KMS para que o Amazon Bedrock possa descriptografá-la.
Name Space: (opcional) o namespace a ser usado para gravar novos dados no banco de dados. Para obter mais informações, consulte Usar namespaces.

Há configurações adicionais que você deve fornecer ao criar um índice do Pinecone:

Nome do campo de texto: o nome do campo no qual o Amazon Bedrock deve armazenar o texto de fragmento bruto.
Nome do campo de metadados: o nome do campo no qual o Amazon Bedrock deve armazenar os metadados de atribuição de origem.

Para acessar o índice do Pinecone, forneça a chave da API do Pinecone ao Amazon Bedrock por meio do AWS Secrets Manager.

Para configurar um segredo para o seu Pinha configuration

Siga as etapas em Criar um AWS Secrets Manager segredo, definindo a chave como apiKey e o valor como a chave da API para acessar seu Pinecone índice.
Para encontrar a chave de API, abra o Console do Pinecone e selecione Chaves de API.
Depois de criar o segredo, anote o ARN da chave do KMS.
Anexe permissões ao perfil de serviço para descriptografar o ARN da chave do KMS seguindo as etapas em Permissões para descriptografar um AWS Secrets Manager segredo para o repositório de vetores que contém sua base de conhecimento.
Posteriormente, ao criar a base de conhecimento, insira o ARN no campo ARN do segredo das credenciais.

Nuvem empresarial Redis

nota

Se você usarRedis Enterprise Cloud, você concorda em autorizar o acesso AWS à fonte terceirizada designada em seu nome para fornecer serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.

Para obter a documentação detalhada sobre como configurar um armazenamento de vetores no Redis Enterprise Cloud, consulte Integração do Redis Enterprise Cloud com o Amazon Bedrock.

Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:

URL do endpoint: o URL público do endpoint do banco de dados.
Nome do índice de vetores: o nome do índice de vetores do banco de dados.

Campo vetorial: o nome do campo em que as incorporações de vetores serão armazenadas. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter.

Modelo	Dimensões
Incorporador de Texto do Titan G1	1.536
Incorporador de Texto do Titan v2	1.024, 512 e 256
Embed da Cohere em inglês	1,024
Embed da Cohere multilíngue	1,024

Campo de texto: o nome do campo em que o Amazon Bedrock armazena os fragmentos de texto bruto.
Bedrock-managed campo de metadados — O nome do campo em que o Amazon Bedrock armazena metadados relacionados à sua base de conhecimento.

Para acessar o cluster do Redis Enterprise Cloud, forneça a configuração de segurança do Redis Enterprise Cloud ao Amazon Bedrock por meio do AWS Secrets Manager.

Para configurar um segredo para o seu Nuvem empresarial Redis configuration

Habilite o TLS para usar seu banco de dados com o Amazon Bedrock seguindo as etapas em Transport Layer Security (TLS).
Siga as etapas em Criar um AWS Secrets Manager segredo. Configure as seguintes chaves com os valores adequados da configuração do Redis Enterprise Cloud no segredo:
- username: o nome de usuário para acessar o banco de dados do Redis Enterprise Cloud. Para encontrar seu nome de usuário, consulte a seção Segurança do banco de dados no console do Redis.
- password: a senha para acessar o banco de dados do Redis Enterprise Cloud. Para encontrar sua senha, consulte a seção Segurança do banco de dados no console do Redis.
- serverCertificate: o conteúdo do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.
- clientPrivateKey: a chave privada do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.
- clientCertificate: a chave pública do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.
Depois de criar o segredo, anote o ARN dele. Posteriormente, ao criar a base de conhecimento, insira o ARN no campo ARN do segredo das credenciais.

MongoDB Atlas

nota

Se você usa o MongoDB Atlas, concorda em AWS autorizar o acesso à fonte terceirizada designada em seu nome para fornecer serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.

Para ver uma documentação detalhada sobre como configurar um armazenamento de vetores no MongoDB Atlas, consulte Launch a Fully Managed RAG Workflow With MongoDB Atlas and Amazon Bedrock.

Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:

URL do endpoint: o URL do endpoint do cluster do MongoDB Atlas.
Nome do banco de dados: o nome do banco de dados no cluster do MongoDB Atlas.
Nome da coleção: o nome da coleção no banco de dados.
ARN secreto de credenciais — O Amazon Resource Name (ARN) do segredo que você criou AWS Secrets Manager e que contém o nome de usuário e a senha de um usuário do banco de dados em seu cluster MongoDB Atlas. O segredo deve conter chaves chamadas username e password.
(Opcional) Chave Customer-managed KMS para seu ARN secreto de credenciais — se você criptografou o ARN secreto de suas credenciais, forneça a chave KMS para que o Amazon Bedrock possa descriptografá-la.

Há configurações adicionais de Mapeamento de campos que você deve fornecer ao criar um índice do MongoDB Atlas:

Nome do índice de vetores: o nome do índice de pesquisa vetorial do MongoDB Atlas em sua coleção.
Nome do campo de vetor: o nome do campo no qual o Amazon Bedrock deve armazenar incorporações de vetores.
Nome do campo de texto: o nome do campo no qual o Amazon Bedrock deve armazenar o texto de fragmento bruto.
Nome do campo de metadados: o nome do campo no qual o Amazon Bedrock deve armazenar os metadados de atribuição de origem.
(Opcional) Nome do índice de pesquisa de texto: o nome do Índice de pesquisa vetorial do MongoDB Atlas em sua coleção.

Importante

Se você planeja usar a filtragem de metadados com sua base de conhecimento do MongoDB Atlas, deverá configurar manualmente os filtros em seu índice de vetores. A filtragem de metadados não funciona por padrão e requer configuração adicional na configuração do índice de vetores do MongoDB Atlas.

(Opcional) Para que o Amazon Bedrock se conecte ao seu cluster AWS PrivateLink MongoDB Atlas, consulte Fluxo de trabalho do RAG com o MongoDB Atlas usando o Amazon Bedrock.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pré-requisitos dos dados da base de conhecimento

Pré-requisitos para clusters gerenciados OpenSearch