Aurora (PostgreSQL) - Amazon Kendra

Aurora (PostgreSQL)

nota

O conector do Aurora (PostgreSQL) permanece totalmente compatível para os clientes existentes até 31 de maio de 2026. Embora esse conector não esteja mais disponível para novos usuários, os atuais podem continuar a usá-lo sem interrupção. Estamos continuamente expandindo nosso portfólio de conectores para oferecer soluções mais escaláveis e personalizáveis. Para futuras integrações, recomendamos explorar o Amazon Kendra Custom Connector Framework[1], projetado para atender a uma ampla variedade de casos de uso empresariais com maior flexibilidade.

Aurora é um sistema de gerenciamento de banco de dados relacional (RDBMS) criado para a nuvem. Se você for um usuário da Aurora, poderá usar Amazon Kendra para indexar a fonte de dados da Aurora (PostgreSQL). O conector da fonte de dados da Amazon Kendra Aurora (PostgreSQL) é compatível com o Aurora PostgreSQL 1.

Você pode se conectar Amazon Kendra à sua fonte de dados do Aurora (PostgreSQL) usando o console da Amazon Kendra e a API TemplateConfiguration.

Para solucionar problemas do conector da fonte de dados da Amazon Kendra Aurora (PostgreSQL), consulte Solucionar problemas de origens de dados.

Recursos compatíveis

  • Mapeamentos de campos

  • Filtragem de contexto do usuário

  • Filtros de inclusão/exclusão

  • Sincronizações completas e incrementais de conteúdo

  • Nuvem privada virtual (VPC)

Pré-requisitos

Antes de poder usar Amazon Kendra para indexar a fonte de dados da Aurora (PostgreSQL), faça essas alterações em suas contas Aurora (PostgreSQL) e AWS.

Em Aurora (PostgreSQL), verifique se você:

  • Anotou o nome de usuário e senha do banco de dados

    Importante

    Como prática recomendada, forneça as credenciais do banco de dados da Amazon Kendra somente para leitura.

  • Copiou a URL, a porta e a instância do host do banco de dados.

  • Verifique se cada documento é exclusivo em Aurora (PostgreSQL) e outras fontes de dados que você planeja usar para o mesmo índice. Cada fonte de dados que você deseja usar para um índice não deve conter o mesmo documento em todas as fontes de dados. Os IDs de documentos são globais para um índice e devem ser exclusivos por índice.

No Conta da AWS, verifique se você:

  • Criou um índice do Amazon Kendra e, se estiver usando a API, anotou o ID do índice.

  • Criou uma função do IAM para a fonte de dados e, se estiver usando a API, anotou o ARN da função do IAM.

    nota

    Se você alterar o tipo de autenticação e as credenciais, deverá atualizar a função do IAM para acessar o ID secreto correto do AWS Secrets Manager.

  • Armazenou suas credenciais de autenticação de Aurora (PostgreSQL) em um AWS Secrets Manager senha e, se estiver usando a API, anotou o ARN da senha.

    nota

    Recomendamos que você atualize ou alterne regularmente as credenciais e as senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e senhas nas fontes de dados e nas versões 1.0 e 2.0 do conector (quando for aplicável).

Se você não tiver uma função ou senha existente da IAM, poderá usar o console para criar uma nova função da IAM e um novo Secrets Manager segredo ao conectar sua fonte de Aurora (PostgreSQL) dados Amazon Kendra a. Se você estiver usando a API, deverá fornecer o ARN de uma função da IAM e a senha Secrets Manager existentes e um ID de índice.

Instruções de conexão

Para conectar Amazon Kendra à sua fonte de dados da Aurora (PostgreSQL), você deve fornecer detalhes das credenciais da Aurora (PostgreSQL) para que Amazon Kendra possa acessar seus dados. Se você ainda não configurou Aurora (PostgreSQL) para Amazon Kendra, consulte Pré-requisitos.

Console

Para conectar o Amazon Kendra ao Aurora (PostgreSQL)

  1. Faça login no Console de gerenciamento da AWS e abra o console do Amazon Kendra.

  2. No painel de navegação esquerdo, escolha Índices e, em seguida, escolha o índice que deseja usar na lista de índices.

    nota

    Você pode escolher definir ou editar as configurações de Controle de acesso do usuário em Configurações do índice.

  3. Na página Introdução, escolha Adicionar fonte de dados.

  4. Na página Adicionar fonte de dados, escolha o Conector do Aurora (PostgreSQL) e selecione Adicionar conector. Se estiver usando a versão 2 (se aplicável), escolha o Conector do Aurora (PostgreSQL) com a tag “V2.0”.

  5. Na página Especar detalhes da fonte de dados, insira as seguintes informações:

    1. Em Nome e descrição, em Nome da fonte de dados: insira um nome para a fonte de dados. Você pode incluir hífens, mas não espaços.

    2. (Opcional) Descrição: insira uma descrição opcional para a fonte de dados.

    3. Em Idioma padrão: escolha um idioma para filtrar os documentos do índice. A menos que você especifique o contrário, o idioma padrão é o inglês. O idioma especificado nos metadados do documento substitui o idioma selecionado.

    4. Em Tags, em Adicionar nova tag: inclua tags opcionais para pesquisar e filtrar os recursos ou monitorar os custos da AWS.

    5. Escolha Próximo.

  6. Na página Definir seção e segurança, insira as informações a seguir:

    1. Em Fonte, insira o seguinte:

    2. Host: insira o URL do host do banco de dados; por exemplo: http://instance URL.region.rds.amazonaws.com.

    3. Porta: insira a porta do banco de dados; por exemplo, 5432.

    4. Instância: insira a instância do banco de dados; por exemplo, postgres.

    5. Ativar localização do certificado SSL: escolha inserir o caminho do Amazon S3 para o arquivo do certificado SSL.

    6. Em Autenticação: insira as seguintes informações:

      1. Segredo do AWS Secrets Manager: escolha um segredo existente ou crie um segredo do Secrets Manager para armazenar as credenciais de autenticação do Aurora (PostgreSQL). Se optar por criar uma nova senha, uma janela secreta do AWS Secrets Manager será aberta.

        1. Insira as seguintes informações em Criar uma janela de senha do AWS Secrets Manager:

          1. Senha: um nome para sua senha. O prefixo “AmazonKendra-Aurora (PostgreSQL)-” é adicionado automaticamente à senha.

          2. Em Nome de usuário do banco de dados e Senha, insira os valores da credencial de autenticação que você copiou do banco de dados.

        2. Escolha Salvar.

    7. Nuvem privada virtual (VPC): você pode escolher usar uma VPC. Nesse caso, você deve adicionar sub-redes e grupos de segurança da VPC.

    8. Função do IAM: escolha uma função do IAM existente ou crie uma nova função do IAM para acessar as credenciais do repositório e indexar o conteúdo.

      nota

      Funções do IAM usadas para índices não podem ser usados para fontes de dados. Se você não tiver certeza se uma função existente é usada para um índice ou perguntas frequentes, escolha Criar uma nova função para evitar erros.

    9. Escolha Próximo.

  7. Na página Configurar configurações de sincronização, insira as seguintes informações:

    1. Em Sincronizar escopo, escolha uma das opções a seguir:

      • Consulta SQL: insira instruções de consulta SQL, como as operações SELECT e JOIN. As consultas SQL devem ter menos de 32 KB e não devem conter ponto e vírgula (;). O Amazon Kendra rastreará todo o conteúdo do banco de dados que corresponde à sua consulta.

      • Coluna da chave primária: forneça a chave primária da tabela do banco de dados. Isso identifica uma tabela no banco de dados.

      • Coluna de título: forneça o nome da coluna do título do documento na tabela do banco de dados.

      • Coluna do corpo: forneça o nome da coluna do corpo do documento na tabela do banco de dados.

    2. Em Configuração adicional: opcional, escolha entre as seguintes opções para sincronizar um conteúdo específico em vez de sincronizar todos os arquivos:

      • Colunas de detecção de alterações: insira os nomes das colunas que Amazon Kendra usará para detectar alterações no conteúdo. O Amazon Kendra reindexará o conteúdo quando houver uma alteração em qualquer uma dessas colunas

      • Coluna de IDs dos usuários: insira o nome da coluna que contém os IDs de usuário para ter acesso ao conteúdo.

      • Coluna de grupos: insira o nome da coluna que contém os IDs de usuário para ter acesso ao conteúdo.

      • Coluna de URLs de origem: insira o nome da coluna que contém os URLs de origem a serem indexados.

      • Coluna de carimbos de data/hora: insira o nome da coluna que contém carimbos de data e hora. O Amazon Kendra usa as informações de data e hora para detectar alterações no conteúdo e sincronizar somente o conteúdo alterado.

      • Coluna de fusos horários: insira o nome da coluna que contém os fusos horários para o conteúdo a ser rastreado.

      • Formato de carimbos de data/hora: insira o nome da coluna que contém carimbos de data e hora para usar para detectar alterações de conteúdo e sincronizar novamente o conteúdo.

    3. Modo de sincronização: escolha como você deseja atualizar o índice quando o conteúdo da fonte de dados for alterado. Ao sincronizar a fonte de dados com o Amazon Kendra pela primeira vez, é feito crawling de e indexação de todo o conteúdo por padrão. Você deve executar uma sincronização completa dos seus dados se o processo inicial falhar, mesmo que não escolha essa opção de modo de sincronização.

      • Sincronização total: indexa novamente todo o conteúdo, substituindo o já existente sempre que a fonte de dado é sincronizada com o índice.

      • Sincronização nova e modificada: indexe somente o conteúdo novo e modificado sempre que a fonte de dados é sincronizada com o índice. O Amazon Kendra pode usar o mecanismo da fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

      • Sincronização nova, modificada e excluída: indexe somente o conteúdo novo, modificado e excluído sempre que a fonte de dados é sincronizada com o índice. O Amazon Kendra pode usar o mecanismo da fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

    4. Em Cronograma de execução da sincronização, em Frequência, escolha com que frequência o Amazon Kendra será sincronizado com a fonte de dados.

    5. Escolha Próximo.

  8. Na página Definir mapeamentos de campo, insira as seguintes informações:

    1. Selecione entre os campos de fonte de dados padrão gerados: IDs de documentos, Títulos de documentos e URLs de origem, que você deseja mapear para o índice do Amazon Kendra.

    2. Adicionar campo: para adicionar campos de fonte de dados personalizados, crie um nome de campo de índice para mapear e o tipo de dados do campo.

    3. Escolha Próximo.

  9. Na página Revisar e criar, verifique se as informações inseridas estão corretas e selecione Adicionar fonte de dados. Você também pode optar por editar as informações a partir desta página. Sua fonte de dados aparecerá na página Fontes de dados depois que a fonte de dados for adicionada com sucesso.

API

Para conectar o Amazon Kendra ao Aurora (PostgreSQL)

Você deve especificar o seguinte usando a API TemplateConfiguration:

  • Fonte de dados: especifique o tipo de fonte de dados como JDBC quando você usa o esquema JSON TemplateConfiguration. Também especifique a fonte de dados como TEMPLATE quando você chama a API CreateDataSource.

  • Tipo de banco de dados: especifique o tipo de banco de dados como postgresql.

  • Consulta SQL: especifique declarações de consulta SQL, como as operações SELECT e JOIN. As consultas SQL devem ser inferiores a 32 KB. O Amazon Kendra rastreará todo o conteúdo do banco de dados correspondente à sua consulta.

  • Modo de sincronização: especifique como o Amazon Kendra deve atualizar o índice quando o conteúdo da fonte de dados é alterado. Ao sincronizar a fonte de dados com o Amazon Kendra pela primeira vez, é feito crawling de e indexação de todo o conteúdo por padrão. Você deve executar uma sincronização completa dos seus dados se o processo inicial falhar, mesmo que não escolha essa opção de modo de sincronização. Escolha uma das seguintes opções:

    • FORCED_FULL_CRAWL para indexar novamente todo o conteúdo, substituindo o já existente sempre que a fonte de dado é sincronizada com o índice.

    • FULL_CRAWL para indexar somente o conteúdo novo, modificado e excluído sempre que a fonte de dados é sincronizada com o índice. O Amazon Kendra pode usar o mecanismo da fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

    • CHANGE_LOG para indexar somente o conteúdo novo e modificado sempre que a fonte de dados é sincronizada com o índice. O Amazon Kendra pode usar o mecanismo da fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

  • Nome do recurso da Amazon (ARN) do segredo: forneça o nome do recurso da Amazon (ARN) de um segredo do Secrets Manager que contenha as credenciais de autenticação criadas na conta do Aurora (PostgreSQL). A senha deve conter uma estrutura JSON com as seguintes chaves:

    { "user name": "database user name", "password": "password" }
    nota

    Recomendamos que você atualize ou alterne regularmente as credenciais e as senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e senhas nas fontes de dados e nas versões 1.0 e 2.0 do conector (quando for aplicável).

  • Função do IAM: especifique o RoleArn ao chamar o CreateDataSource para fornecer uma função do IAM com permissões para acessar a senha do Secrets Manager e chamar as APIs públicas necessárias para o conector do Aurora (PostgreSQL) e o Amazon Kendra. Para obter mais informações, consulte Funções para o IAM das fontes de dados do Aurora (PostgreSQL).

Você também pode adicionar os seguintes recursos opcionais:

  • Nuvem privada virtual (VPC): especifique a VpcConfiguration quando ao chamar CreateDataSource. Para obter mais informações, consulte Configurar a Amazon Kendra para usar o Amazon VPC.

  • Filtros de inclusão e exclusão: especifique se deseja incluir conteúdo específico usando IDs de usuário, grupos, URLs de origem, carimbos de data e hora e fusos horários.

  • Filtragem de contexto do usuário e controle de acesso: o Amazon Kendra faz crawling da lista de controle de acesso (ACL) para seus documentos, caso haja uma ACL para seus documentos. As informações da ACL são usadas para filtrar os resultados da pesquisa com base no acesso do usuário ou do grupo aos documentos. Para obter mais informações, consulte Filtrar o contexto do usuário.

  • Mapeamentos de campo: escolha mapear os campos de fonte de dados do Aurora (PostgreSQL) para os campos de índice do Amazon Kendra. Para obter mais informações, consulte Mapear campos de fonte de dados.

    nota

    É obrigatório definir o campo de corpo do documento ou equivalente para que o Amazon Kendra possa pesquisar seus documentos. Você deve mapear o nome do campo de corpo do documento na fonte de dados para o nome do campo de índice _document_body. Todos os demais campos são opcionais.

Para ver uma lista de outras chaves JSON importantes a serem configuradas, consulte Esquema de modelo do Aurora (PostgreSQL).

Observações

  • As linhas excluídas do banco de dados não serão rastreadas durante a verificação do Amazon Kendra para o conteúdo atualizado.

  • O tamanho dos nomes e valores dos campos em uma linha do banco de dados não pode exceder 400 KB.

  • Se você tiver uma grande quantidade de dados na fonte de dados do banco de dados e não quiser que o Amazon Kendra indexe todo o conteúdo do banco de dados após a primeira sincronização, poderá optar por sincronizar somente documentos novos, modificados ou excluídos.

  • Como prática recomendada, forneça as credenciais do banco de dados da Amazon Kendra somente para leitura.

  • Como prática recomendada, evite adicionar tabelas com dados confidenciais ou informações pessoais identificáveis (PII).