Mapeando campos de fontes de dados - Amazon Kendra

Mapeando campos de fontes de dados

Os conectores de fonte de dados do Amazon Kendra podem mapear campos de documentos ou de conteúdo da fonte de dados para campos no seu índice do Amazon Kendra. Por padrão, todo conector é projetado para rastrear campos específicos da fonte de dados. Os campos padrão da fonte de dados e suas propriedades não podem ser alterados nem personalizados. No console do Amazon Kendra, os campos padrão e as propriedades do campo padrão que não podem ser editados ficam esmaecidos.

Os conectores do Amazon Kendra podem mapear documentos personalizados ou campos de conteúdo da fonte de dados para campos personalizados no seu índice. Por exemplo, se você tiver um campo na fonte de dados chamado “departamento” que contém informações do departamento de um documento, ele pode ser mapeado para um campo de índice chamado “Departamento”. Dessa forma, você pode usar o campo ao consultar documentos.

Você também pode mapear campos reservados ou comuns do Amazon Kendra, como _created_at. Se a fonte de dados tiver um campo chamado “creation_date”, você poderá mapeá-lo para o campo Amazon Kendra reservado equivalente chamado _created_at. Para obter mais informações sobre campos reservados do Amazon Kendra, consulte Atributos ou campos do documento.

Você pode mapear campos para a maioria das fontes de dados. Você pode criar mapeamentos de campo para as seguintes fontes de dados:

  • Adobe Experience Manager

  • Alfresco

  • Aurora (MySQL)

  • Aurora (PostgreSQL)

  • Amazon FSx (Windows)

  • Amazon FSx (NetApp ONTAP)

  • Amazon RDS/Aurora

  • Amazon RDS (Microsoft SQL Server)

  • Amazon RDS (MySQL)

  • Amazon RDS (Oracle)

  • Amazon RDS (PostgreSQL)

  • Amazon Kendra Web Crawler

  • WorkDocs

  • Box

  • Confluence

  • Dropbox

  • Drupal

  • GitHub

  • Google Workspace Drives

  • Gmail

  • IBM DB2

  • Jira

  • Microsoft Exchange

  • Microsoft OneDrive

  • Microsoft SharePoint

  • Microsoft Teams

  • Microsoft SQL Server

  • Microsoft Yammer

  • MySQL

  • Oracle Database

  • PostgreSQL

  • Quip

  • Salesforce

  • ServiceNow

  • Slack

  • Zendesk

Ao armazenar os documentos em um bucket do S3 ou fonte de dados do S3, especifique os campos usando um arquivo de metadados JSON. Para obter mais informações, consulte conectores de fonte de dados do S3.

O mapeamento dos campos da fonte de dados para um campo de índice é um processo de três etapas:

  1. Crie um índice. Para obter mais informações, consulte Criar um índice.

  2. Atualize o índice para adicionar campos.

  3. Crie uma fonte de dados e inclua mapeamentos de campo para mapear campos reservados e quaisquer campos personalizados para o Amazon Kendra indexar campos.

Para atualizar o índice para adicionar campos personalizados, use o console para editar os mapeamentos de campo da fonte de dados e adicionar um campo personalizado ou use a API UpdateIndex. Você pode adicionar um total de 500 campos personalizados ao seu índice.

Para fontes de dados do banco de dados, se o nome da coluna do banco de dados corresponder ao nome de um campo reservado, o campo e a coluna serão mapeados automaticamente.

Com a API UpdateIndex, você adiciona campos reservados e personalizados usando DocumentMetadataConfigurationUpdates.

O exemplo de JSON a seguir usa DocumentMetadataConfigurationUpdates para adicionar um campo chamado “Departamento” ao índice.

"DocumentmetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE" } ]

Ao criar o campo, você tem a opção de definir como o campo é usado para pesquisa. Você pode escolher entre as seguintes opções:

  • Exibível: determina se o campo é retornado na resposta da consulta. O padrão é “”. true.

  • Facetável: indica que o campo pode ser usado para criar facetas. O padrão é “”. false.

  • Pesquisável: determina se o campo é usado na pesquisa. O padrão é true para campos de string e false para campos de número e data.

  • Classificável: indica que o campo pode ser usado para classificar os resultados da pesquisa. Ele só pode ser definido para campos de data, número e sequência de caracteres. Ele não pode ser definido para campos de lista de strings.

O exemplo de JSON a seguir usa DocumentMetadataConfigurationUpdates para adicionar um campo chamado “Departamento” ao índice.

"DocumentMetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE", "Search": { "Facetable": true } } ]

Usando campos de documentos do Amazon Kendra reservados ou comuns

Com a API UpdateIndex, crie campos reservados ou comuns usando DocumentMetadataConfigurationUpdates e especificando o nome do campo de índice reservado do Amazon Kendra para mapear para o atributo/nome do campo equivalente do documento. Você também pode criar campos personalizados. Se você usa um conector de fonte de dados, a maioria inclui mapeamentos de campo que mapeiam os campos do documento da fonte de dados para o Amazon Kendra indexar os campos. Se usar o console, atualize os campos selecionando a fonte de dados, a ação de edição e, em seguida, prosseguindo para a seção de mapeamentos de campo para configurar a fonte de dados.

Você pode configurar o objeto Search para definir um campo como exibível, facetável, pesquisável e classificável. Configure o objeto Relevance para definir a ordem de classificação, a duração do aumento ou o período de tempo de um campo a ser aplicado ao aumento, à atualização, ao valor de importância e aos valores de importância mapeados para valores de campo específicos. Se usar o console, defina as configurações de pesquisa de um campo selecionando a opção de faceta no menu de navegação. Para definir o ajuste de relevância, selecione a opção de pesquisar o índice no menu de navegação, insira uma consulta e use as opções do painel lateral para ajustar a relevância da pesquisa. Você não pode alterar o tipo de campo depois de criar o campo.

O Amazon Kendra tem os seguintes campos de documento reservados ou comuns que podem ser usados:

  • _authors: uma lista de um ou mais autores responsáveis pelo conteúdo do documento.

  • _category: uma categoria que coloca um documento em um grupo específico.

  • _created_at: a data e a hora no formato ISO 8601 em que o documento foi criado. Por exemplo, 2012-03-25T12:30:10+01:00 é o formato de data e hora ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.

  • _data_source_id: o identificador da fonte de dados que contém o documento.

  • _document_body: o conteúdo do documento de trabalho.

  • _document_id: o identificador exclusivo de cada documento.

  • _document_title: o título do documento.

  • _excerpt_page_number: o número da página em um arquivo PDF em que o trecho do documento aparece. Se o índice foi criado antes de 8 de setembro de 2020, você deve reindexar os documentos antes de poder usar esse atributo.

  • _faq_id: se for um documento do tipo pergunta e resposta (Perguntas frequentes), um identificador exclusivo para as Perguntas frequentes.

  • _file_type: o tipo de arquivo do documento, como pdf ou doc.

  • _last_updated_at: a data e a hora no formato ISO 8601 em que o documento foi atualizado pela última vez. Por exemplo, 2012-03-25T12:30:10+01:00 é o formato de data e hora ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.

  • _source_uri: o URI em que o documento está disponível. Por exemplo, o URI do documento no site da empresa.

  • _version: um identificador para a versão específica de um documento.

  • _view_count: o número de vezes que o documento foi visualizado.

  • _language_code(String): o código de um idioma que se aplica ao documento. O padrão é inglês se você não especificar um idioma. Para obter mais informações sobre os idiomas suportados, incluindo os códigos, consulte Adicionar documentos em outros idiomas além do inglês.

Para campos personalizados, você cria esses campos usando DocumentMetadataConfigurationUpdates com a API UpdateIndex, assim como faz ao criar um campo reservado ou comum. Você deve definir o tipo de dados apropriado para o campo personalizado. Se usar o console, atualize os campos selecionando a fonte de dados, a ação de edição e, em seguida, prosseguindo para a seção de mapeamentos de campo para configurar a fonte de dados. Algumas fontes de dados não oferecem suporte à adição de novos campos ou campos personalizados. Você não pode alterar o tipo de campo depois de criar o campo.

Estes são os tipos que podem ser definidos em campos personalizados:

  • Data

  • Número

  • String

  • Lista de strings

Se você adicionou documentos ao índice usando a API BatchputDocument, Attributes lista os campos/atributos dos documentos e cria campos usando o objeto DocumentAttribute.

Para documentos indexados de uma fonte de dados do Amazon S3, você cria campos usando um arquivo de metadados JSON que inclui as informações dos campos.

Ao usar um banco de dados compatível como fonte de dados, poderá configura os campos usando a opção de mapeamentos de campo.