Dados não estruturados Dados estruturados

Transformar dados em uma base de conhecimento

Para criar uma base de conhecimento, conecte-se a uma fonte de dados compatível que você deseja que a base de conhecimento possa acessar. A base de conhecimento poderá responder às consultas dos usuários ou gerar respostas de acordo com os dados recuperados.

As Bases de Conhecimento do Amazon Bedrock permitem usar uma variedade de documentos, como texto, imagens ou documentos multimodais que contêm tabelas, gráficos, diagramas e outras imagens. Os dados multimodais se referem a uma combinação de texto e dados visuais. Exemplos de tipos de arquivo que contêm dados não estruturados são texto, Markdown, HTML e PDF.

As seções abaixo descrevem os tipos de dados que as Bases de Conhecimento do Amazon Bedrock aceitam e os serviços aos quais você pode conectar a base de conhecimento para cada tipo de dados:

Dados não estruturados

Dados não estruturados se referem a dados que não são forçados a seguir uma estrutura predefinida. As Bases de Conhecimento do Amazon Bedrock permitem a conexão com os seguintes serviços para adicionar dados não estruturados à base de conhecimento:

Amazon S3
Confluence (versão prévia)
Microsoft SharePoint (versão prévia)
Salesforce (versão prévia)
Web Crawler (versão prévia)
Fonte de dados personalizada (permite a ingestão direta de dados em bases de conhecimento sem precisar de sincronização)

Uma fonte de dados contém documentos em um formato bruto. Para otimizar o processo de consulta, uma base de conhecimento converte os dados brutos em incorporações de vetores, uma representação numérica dos dados, para quantificar a semelhança com consultas que também são convertidas em incorporações de vetores. As Bases de Conhecimento do Amazon Bedrock usam os seguintes recursos no processo de conversão da fonte de dados:

Modelo de incorporação: um modelo de base que converte os dados em incorporações de vetores. Para dados multimodais contendo texto e imagens, você pode usar modelos de incorporação multimodais, como Amazon Titan Multimodal Embeddings G1 ou Cohere Embed v3.
Armazenamento de vetores: um serviço que armazena a representação de vetor dos seus dados. Somente os seguintes tipos de armazenamento de vetores são aceitos:
- Amazon sem OpenSearch servidor
- Clusters gerenciados do Amazon OpenSearch Service
- Amazon Neptune
- Amazon Aurora (RDS)
- Pinecone
- Redis Enterprise Cloud
- Atlas do MongoDB
- Amazon S3 Vectors

O processo de conversão dos dados em incorporações de vetores é chamado de ingestão. O processo de ingestão que transforma os dados em uma base de conhecimento envolve as seguintes etapas:

Ingestão

Os dados são analisados pelo analisador escolhido. Para ter mais informações sobre análise, consulte Opções de análise para a fonte de dados.
Cada documento na fonte de dados é dividido fragmentos, que são subdivisões dos dados que podem ser definidas pelo número de tokens e outros parâmetros. Para ter mais informações sobre fragmentação, consulte Como a fragmentação de conteúdo funciona para bases de conhecimento.
O modelo de incorporação escolhido converte os dados em incorporações de vetores. Para conteúdo multimodal, as imagens são incorporadas como vetores visuais, enquanto o texto é incorporado como vetores de texto, permitindo a pesquisa em ambas as modalidades.
As incorporações de vetores são gravadas em um índice de vetores no armazenamento de vetores escolhido.

Depois que o processo de ingestão for concluído, a base de conhecimento estará pronta para ser consultada. Para ter informações sobre como consultar e recuperar informações da base de conhecimento, consulte Recuperar informações de fontes de dados usando as Bases de Conhecimento do Amazon Bedrock.

Se você fizer alterações em uma fonte de dados, deverá sincronizar as alterações para incluir adições, modificações e exclusões na base de conhecimento. Algumas fontes de dados permitem a ingestão ou exclusão direta de arquivos na base de conhecimento, eliminando a necessidade de tratar a modificação e a ingestão da fonte de dados como etapas separadas e a necessidade de sempre realizar sincronizações completas. Para saber como ingerir documentos diretamente na base de conhecimento e nas fontes de dados que a atendem, consulte Ingerir alterações diretamente em uma base de conhecimento.

As Bases de Conhecimento do Amazon Bedrock oferecem várias opções para personalizar a forma como os dados são ingeridos. Para ter mais informações sobre como personalizar esse processo, consulte Personalizar a base de conhecimento.

Dados estruturados

Dados estruturados se referem a dados tabulares em um formato predefinido pelo datastore em que eles residem. As Bases de Conhecimento do Amazon Bedrock se conectam a armazenamentos de dados estruturados compatíveis por meio do mecanismo de consulta do Amazon Redshift. Elas oferecem um mecanismo totalmente gerenciado que analisa padrões de consulta, histórico de consultas e metadados de esquema para converter consultas em linguagem natural em consultas SQL. Essas consultas convertidas são então usadas para recuperar informações relevantes de fontes de dados compatíveis.

As Bases de Conhecimento do Amazon Bedrock permitem a conexão com os seguintes serviços para adicionar armazenamentos de dados estruturados à base de conhecimento:

banco de dados de origem
AWS Glue Data Catalog (AWS Lake Formation)

Se você conectar a base de conhecimento a um armazenamento de dados estruturados, não precisará converter os dados em incorporações de vetores. Em vez disso, as Bases de Conhecimento do Amazon Bedrock podem consultar diretamente o armazenamento de dados estruturados. Durante a consulta, as Bases de Conhecimento do Amazon Bedrock podem converter consultas de usuários em consultas SQL para recuperar dados relevantes à consulta do usuário e gerar respostas mais precisas. Também é possível gerar consultas SQL sem recuperar dados e usá-las em outros fluxos de trabalho.

Como exemplo, um repositório de banco de dados contém a seguinte tabela com informações sobre clientes e compras:

ID da do cliente	Quantidade comprada em 2020	Quantidade comprada em 2021	Quantidade comprada em 2022	Valor total comprado até o momento
1	200	300	500	1000
2	150	100	120	370
3	300	300	300	900
4	720	180	100	900
5	500	400	100	1000
6	900	800	1000	2700
7	470	420	400	1290
8	250	280	250	780
9	620	830	740	2190
10	300	200	300	800

Se uma consulta do usuário disser “forneça um resumo dos cinco clientes que mais gastam”, a base de conhecimento poderá fazer o seguinte:

Converter a consulta em uma consulta SQL.
Exibir um trecho da tabela que contém o seguinte:
- Colunas relevantes da tabela “ID do cliente” e “Valor total de compra até o momento”.
- Linhas da tabela contendo o valor total da compra para os dez clientes que mais gastam.
Gerar uma resposta que indique quais clientes foram os cinco clientes que mais gastaram e quanto eles compraram.

Outros exemplos de consulta para as quais uma base de conhecimento pode gerar um trecho de tabela incluem:

“Os cinco principais clientes por gasto em 2020”;
“O principal cliente por valor de compra em 2020”;
“Os cinco principais clientes por valor de compra de 2020 a 2022”;
“Os cinco principais clientes com gastos mais altos em 2022”;
“Os clientes com valor total de compra inferior a $ 10”;
“Os cinco clientes com gastos mais baixos”.

Quanto mais específica ou detalhada for uma consulta, mais a base de conhecimento poderá restringir as informações exatas a serem exibidas. Por exemplo, em vez da consulta “Os dez principais clientes por gasto em 2020”, uma consulta mais específica é “Encontre os dez valores totais de compra mais altos até o momento para clientes em 2020”. A consulta específica se refere ao nome da coluna “Valor total de compra até o momento” na tabela do banco de dados de gastos dos clientes e também indica que os dados devem ser classificados por “mais alto”.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Como funcionam as bases de conhecimento

Recuperar informações das fontes de dados