Aurora (PostgreSQL)
El conector de Aurora (PostgreSQL) seguirá siendo totalmente compatible con los clientes actuales hasta el 31 de mayo de 2026. Si bien este conector ya no está disponible para los nuevos usuarios, los usuarios actuales pueden seguir utilizándolo sin interrupciones. Estamos evolucionando continuamente nuestra cartera de conectores para ofrecer soluciones más escalables y personalizables. Para futuras integraciones, le recomendamos que explore el marco de conectores personalizados de Amazon Kendra[1], diseñado para que sea compatible con una gama más amplia de casos de uso empresariales con mayor flexibilidad.
Aurora es un sistema de administración de base de datos relacional (RDBMS) creado para la nube. Un usuario de Aurora puede usar Amazon Kendra para indexar su origen de datos de Aurora (PostgreSQL). El conector de origen de datos de Aurora (PostgreSQL) de Amazon Kendra es compatible con Aurora PostgreSQL 1.
Puede conectar Amazon Kendra a su origen de datos de Aurora (PostgreSQL) mediante la consola de Amazon Kendra o la API TemplateConfiguration.
Para solucionar problemas del conector de origen de datos de Amazon Kendra Aurora (PostgreSQL), consulte Solución de problemas con los orígenes de datos.
Características admitidas
-
Asignaciones de campo
-
Filtrado de contexto de usuario
-
Filtros de inclusión/exclusión
-
Sincronizaciones del contenido completo e incremental
-
Nube privada virtual (VPC)
Requisitos previos
Antes de poder utilizar Amazon Kendra para indexar el origen de datos de Aurora (PostgreSQL), realice estos cambios en sus cuentas de Aurora (PostgreSQL) y AWS.
En Aurora (PostgreSQL), asegúrese de que:
-
Ha anotado el nombre de usuario y contraseña de la base de datos.
Como práctica recomendada, proporcione a Amazon Kendra credenciales de base de datos de solo lectura.
-
Ha copiado la URL, el puerto y la instancia del host de la base de datos.
-
Ha comprobado que cada documento es único en Aurora (PostgreSQL) y en otros orígenes de datos que vaya a utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. Los ID de documento son globales para un índice y deben ser únicos por índice.
En su Cuenta de AWS, asegúrese de que:
-
Ha creado un índice de Amazon Kendra y, si usa la API, ha anotado el ID del índice.
-
Ha creado un rol de IAM para el origen de datos y, si usa la API, ha anotado el ARN del rol de IAM.
Si cambia el tipo de autenticación y las credenciales, debe actualizar el rol de IAM para acceder al ID secreto de AWS Secrets Manager correcto.
-
Ha guardado sus credenciales de autenticación de Aurora (PostgreSQL) en un secreto de AWS Secrets Manager y, si utiliza la API, ha anotado el ARN del secreto.
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).
Si no tiene un rol o secreto de IAM existente, puede usar la consola para crear un nuevo rol de IAM y secreto de Secrets Manager al conectar el origen de datos de Aurora (PostgreSQL) a Amazon Kendra. Si utiliza la API, debe proporcionar el ARN de un rol de IAM y un secreto de Secrets Manager existentes y un ID de índice.
Instrucciones de conexión
Para conectar Amazon Kendra al origen de datos de Aurora (PostgreSQL), debe proporcionar los detalles de las credenciales de Aurora (PostgreSQL) para que Amazon Kendra pueda acceder a los datos. Si aún no ha configurado Aurora (PostgreSQL) para Amazon Kendra, consulte Requisitos previos.
- Console
-
Para conectar Amazon Kendra a Aurora (PostgreSQL)
-
Inicie sesión en Consola de administración de AWS y abra la consola de Amazon Kendra.
-
En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.
Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.
-
En la página Introducción, seleccione Agregar origen de datos.
-
En la página Agregar origen de datos, seleccione el Conector de Aurora (PostgreSQL) y, a continuación, seleccione Agregar conector. Si usa la versión 2 (si corresponde), elija el Conector de Aurora (PostgreSQL) con la etiqueta V2.0.
-
En la página Especificar detalles del origen de datos, introduzca la siguiente información:
-
En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.
-
(Opcional) Descripción: introduzca una descripción opcional para el origen de datos.
-
En Idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.
-
En Etiquetas, para Agregar nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar los recursos o hacer un seguimiento de los costos de AWS.
-
Elija Siguiente.
-
En la página Definir acceso y seguridad, introduzca la siguiente información:
-
En Origen, introduzca la siguiente información:
-
Host: ingrese la URL del host de la base de datos, por ejemplo: http://instance
URL.region.rds.amazonaws.com.
-
Puerto: ingrese el puerto de la base de datos, por ejemplo, 5432.
-
Instancia: ingrese la instancia de la base de datos, por ejemplo postgres.
-
Habilitar la ubicación del certificado SSL: elija introducir la ruta de Amazon S3 al archivo de certificado SSL.
-
En Autenticación, introduzca la siguiente información:
-
Secreto de AWS Secrets Manager: elija un secreto existente o cree un nuevo secreto de Secrets Manager para almacenar sus credenciales de autenticación de Aurora (PostgreSQL). Si decide crear un secreto nuevo, se abrirá una ventana de secreto de AWS Secrets Manager.
-
Introduzca la siguiente información en la ventana Crear un secreto de AWS Secrets Manager:
-
Nombre del secreto: un nombre para su secreto. El prefijo “AmazonKendra-Aurora (PostgreSQL)-” se añade automáticamente al nombre del secreto.
-
Para el nombre de usuario y la contraseña de la base de datos: introduzca los valores de las credenciales de autenticación que ha copiado de la base de datos.
-
Seleccione Save.
-
Nube privada virtual (VPC): puede optar por utilizar una VPC. Si es así, debe agregar Subredes y Grupos de seguridad de VPC.
-
Rol de IAM: elija un rol de IAM existente o cree un nuevo rol de IAM para acceder a las credenciales del repositorio y al contenido del índice.
Los roles de IAM utilizados para los índices no se pueden usar para los orígenes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.
-
Elija Siguiente.
-
En la página Configurar ajustes de sincronización, introduzca la siguiente información:
-
En Ámbito de sincronización, seleccione de entre las siguientes opciones:
-
Consulta SQL: introduzca instrucciones de consulta SQL, como las operaciones SELECT y JOIN. Las consultas SQL deben tener menos de 32 KB. Las consultas SQL deben tener menos de 32 KB y no contener puntos y comas (;). Amazon Kendra rastreará todo el contenido de la base de datos que coincida con la consulta.
-
Columna de clave principal: proporcione la clave principal de la tabla de la base de datos. Esto identifica una tabla dentro de la base de datos.
-
Columna de título: proporcione el nombre de la columna del título del documento en la tabla de la base de datos.
-
Columna de cuerpo: proporcione el nombre de la columna del cuerpo del documento en la tabla de la base de datos.
-
En Configuración adicional (opcional), elija una de las siguientes opciones para sincronizar contenido específico en lugar de sincronizar todos los archivos:
-
Columnas de detección de cambios: introduzca los nombres de las columnas que Amazon Kendra utilizará para detectar los cambios en el contenido. Amazon Kendra volverá a indexar el contenido cuando se produzca un cambio en alguna de estas columnas.
-
Columna de ID de usuario: introduzca el nombre de la columna que contiene los ID de usuario a los que se dará acceso al contenido.
-
Columna de grupos: introduzca el nombre de la columna que contiene los grupos a los que se dará acceso al contenido.
-
Columna de URL de origen: introduzca el nombre de la columna que contiene las URL de origen que se van a indexar.
-
Columna de marcas temporales: introduzca el nombre de la columna que contiene las marcas temporales. Amazon Kendra utiliza la información de la marca temporal para detectar cambios en el contenido y sincronizar solo el contenido modificado.
-
Columna de zonas horarias: introduzca el nombre de la columna que contiene las zonas horarias del contenido que se va a rastrear.
-
Formato de marcas temporales: introduzca el nombre de la columna que contiene los formatos de marcas temporales que se deben utilizar para detectar cambios en el contenido y volver a sincronizar su contenido.
-
Modo de sincronización: elija cómo desea actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar el origen de datos con Amazon Kendra por primera vez, todo el contenido se rastrea y se indexa de forma predeterminada. Debe ejecutar una sincronización completa de los datos si la sincronización inicial falló, incluso si no selecciona la sincronización completa como opción de modo de sincronización.
-
Sincronización completa: se vuelve a indexar todo el contenido, reemplazando el contenido existente cada vez que el origen de datos se sincronice con el índice.
-
Sincronización nueva y modificada: se indexa solo contenido nuevo y modificado cada vez que el origen de datos se sincronice con el índice. Amazon Kendra puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido modificado desde la última sincronización.
-
Sincronización nueva y modificada: se indexa solo contenido nuevo y modificado cada vez que el origen de datos se sincronice con el índice. Amazon Kendra puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido modificado desde la última sincronización.
-
En Programa de ejecución de sincronización, en Frecuencia: la frecuencia con la que Amazon Kendra se sincronizará con el origen de datos.
-
Elija Siguiente.
-
En la página Establecer asignaciones de campos, especifique la siguiente información:
-
Seleccione uno de los campos de origen de datos predeterminados generados (ID de documento, Títulos de documento y URL de origen) que desee asignar al índice de Amazon Kendra.
-
Agregar campo: para agregar campos de origen de datos personalizados para crear un nombre de campo de índice al que asignarlos y el tipo de datos del campo.
-
Elija Siguiente.
-
En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.
- API
-
Para conectar Amazon Kendra a Aurora (PostgreSQL)
Debe especificar lo siguiente mediante la API TemplateConfiguration:
-
Origen de datos: especifique el tipo de origen de datos como JDBC cuando utiliza el esquema JSON de TemplateConfiguration. Especifique también el origen de datos como TEMPLATE al llamar a la API CreateDataSource.
-
Tipo de base de datos: debe especificar el tipo de base de datos como postgresql.
-
Consulta SQL: especifique instrucciones de consulta SQL, como las operaciones SELECT y JOIN. Las consultas de SQL deben ser inferiores a 32 KB. Amazon Kendra rastreará todo el contenido de la base de datos que coincida con su consulta.
-
Modo de sincronización: especifique cómo Amazon Kendra debe actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar el origen de datos con Amazon Kendra por primera vez, todo el contenido se rastrea y se indexa de forma predeterminada. Debe ejecutar una sincronización completa de los datos si la sincronización inicial falló, incluso si no selecciona la sincronización completa como opción de modo de sincronización. Puede elegir entre las siguientes opciones:
-
FORCED_FULL_CRAWL para volver a indexar todo el contenido, reemplazando el contenido existente cada vez que el origen de datos se sincronice con el índice.
-
FULL_CRAWL para indexar solo contenido nuevo, modificado y eliminado cada vez que el origen de datos se sincronice con el índice. Amazon Kendra puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido modificado desde la última sincronización.
-
CHANGE_LOG para indexar solo contenido nuevo y modificado cada vez que el origen de datos se sincronice con el índice. Amazon Kendra puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido modificado desde la última sincronización.
-
Nombre de recurso de Amazon (ARN) de secreto: proporcione el nombre de recurso de Amazon (ARN) de un secreto de Secrets Manager que contenga las credenciales de autenticación que creó en su cuenta de Aurora (PostgreSQL). El secreto se almacena en una estructura JSON con las siguientes claves:
{
"user name": "database user name",
"password": "password"
}
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).
-
Rol de IAM: especifique a RoleArn cuándo llamar a CreateDataSource para proporcionar a un rol de IAM permisos para acceder a su secreto de Secrets Manager y para llamar a las API públicas necesarias para el conector de Aurora (PostgreSQL) y Amazon Kendra. Para obtener más información, consulte Roles de IAM para orígenes de datos de Aurora (PostgreSQL).
También puede añadir las siguientes características opcionales:
-
Nube privada virtual (VPC): especifique a VpcConfiguration cuándo llamar a CreateDataSource. Para obtener más información, consulte Configuración de Amazon Kendra para usar una Amazon VPC.
-
Filtros de inclusión y exclusión: puede especificar si desea incluir contenido específico mediante los identificadores de usuario, los grupos, las direcciones URL de origen, las marcas temporales y las zonas horarias.
-
Filtrado de contexto de usuario y control de acceso: Amazon Kendra rastrea la lista de control de acceso (ACL) para los documentos, si tiene una ACL para los documentos. La información de la ACL se utiliza para filtrar los resultados de búsqueda en función del acceso del usuario o su grupo a los documentos. Para obtener más información, consulte Filtrado de contexto de usuario.
-
Asignaciones de campos: elija asignar los campos del origen de datos de Aurora (PostgreSQL) a los campos de índice de Amazon Kendra. Para obtener más información, consulte Asignación de campos de origen de datos.
El campo del cuerpo del documento o el cuerpo del documento equivalente de los documentos es obligatorio para que Amazon Kendra busque en los documentos. Debe asignar el nombre del campo del cuerpo del documento en el origen de datos al nombre del campo de índice _document_body. Todos los demás campos son opcionales.
Para obtener una lista de otras claves JSON importantes que debe configurar, consulte Esquema de plantilla de Aurora (PostgreSQL).
Notas
-
No se realizará un seguimiento de las filas de la base de datos eliminadas cuando Amazon Kendra compruebe si hay contenido actualizado.
-
El tamaño de los nombres y valores de los campos de una fila de la base de datos no puede superar los 400 KB.
-
Si tiene una gran cantidad de datos en el origen de datos de la base de datos y no desea que Amazon Kendra indexe todo el contenido de la base de datos después de la primera sincronización, puede optar por sincronizar solo los documentos nuevos, modificados o eliminados.
-
Como práctica recomendada, proporcione a Amazon Kendra credenciales de base de datos de solo lectura.
-
Como práctica recomendada, evite añadir tablas con datos confidenciales o información de identificación personal (PII).