As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Opções de análise para a fonte de dados
A análise se refere à compreensão e extração de conteúdo de dados brutos. As Bases de Conhecimento do Amazon Bedrock oferecem as seguintes opções para analisar a fonte de dados durante a ingestão:
-
Analisador padrão do Amazon Bedrock: analisa somente texto em arquivos de texto, como arquivos .txt, .md, .html, .doc/.docx, .xls/.xlsx e.pdf. Não há cobranças para usar esse analisador.
nota
Como o analisador padrão gera apenas texto, recomendamos usar a Automação de Dados do Amazon Bedrock ou um modelo de base como analisador em vez do analisador padrão se seus documentos incluírem figuras, gráficos, tabelas ou imagens. A Automação de Dados do Amazon Bedrock e os modelos de base podem extrair esses elementos dos documentos e exibi-los como saída.
-
As Bases de Conhecimento do Amazon Bedrock oferece os seguintes analisadores para analisar dados multimodais, como figuras, gráficos e tabelas em arquivos .pdf, além de arquivos de imagem .jpeg e .png. Esses analisadores também podem extrair figuras, gráficos, tabelas e imagens e armazená-los como arquivos em um destino do S3 que você especifica durante a criação da base de conhecimento. Durante a recuperação da base de conhecimento, esses arquivos podem ser exibidos na resposta ou na citação da fonte utilizada.
-
Automação de Dados do Amazon Bedrock: um serviço totalmente gerenciado que processa dados multimodais com eficiência, sem a necessidade de fornecer nenhum prompt adicional. O custo desse analisador depende do número de páginas no documento ou do número de imagens a serem processadas. Para ter mais informações sobre esse serviço, consulte Automação de Dados do Amazon Bedrock.
-
Modelos de base: processam dados multimodais usando um modelo de base. Esse analisador fornece a opção de personalizar o prompt padrão usado para extração de dados. O custo desse analisador depende do número de tokens de entrada e saída processados pelo modelo de base. Para ver uma lista de modelos em que é possível usar a análise de dados das Bases de Conhecimento do Amazon Bedrock, consulte Modelos e regiões compatíveis.
-
Importante
Se você escolher a Automação de Dados do Amazon Bedrock ou modelos de base como analisador, o método escolhido será usado para analisar todos os arquivos .pdf na fonte de dados, mesmo que os arquivos .pdf contenham somente texto. O analisador padrão não será usado para analisar esses arquivos .pdf. Sua conta incorre em cobranças pelo uso da Automação de Dados do Amazon Bedrock ou do modelo de base na análise desses arquivos.
Ao selecionar como analisar seus dados, considere o seguinte:
-
Se seus dados são puramente textuais ou contêm dados multimodais, como imagens, gráficos e tabelas, que você deseja que a base de conhecimento possa consultar.
-
Se você deseja ter a opção de personalizar o prompt usado para instruir o modelo sobre como analisar seus dados.
-
O custo do analisador. A Automação de Dados do Amazon Bedrock usa preços por página, enquanto os modelos de base analisadores cobram de acordo com os tokens de entrada e saída. Para obter mais informações, consulte Preço do Amazon Bedrock
. -
O limite total do tamanho do arquivo. Quando você usa modelos básicos como seu analisador, o tamanho total do arquivo em todos os arquivos não deve ser maior que 100 GB.
Para saber como configurar a forma como sua base de conhecimento deve ser analisada, consulte a configuração de conexão da sua fonte de dados em Conectar uma fonte de dados à base de conhecimento.