Amazon S3
Amazon S3 es un servicio de almacenamiento de objetos que almacena datos como objetos dentro de buckets. Amazon Kendra se puede utilizar para indexar el repositorio de documentos del bucket de Amazon S3.
Amazon Kendra no utiliza una política de bucket que conceda permisos a una entidad principal de Amazon Kendra para interactuar con un bucket de S3. En su lugar, usa roles de IAM. Asegúrese de que Amazon Kendra no se incluya como miembro de confianza en su política de bucket para evitar problemas de seguridad de los datos si se conceden permisos accidentalmente a entidades principales arbitrarias. Sin embargo, puede añadir una política de bucket para utilizar un bucket de Amazon S3 en distintas cuentas. Para obtener más información, consulte Políticas para usar Amazon S3 en varias cuentas (en la pestaña de roles de IAM de S3, en la sección Roles de IAM para orígenes de datos). Para obtener más información sobre los roles de IAM para orígenes de datos de S3, consulte Roles de IAM.
Amazon Kendra ahora es compatible con un conector de Amazon S3 actualizado.
La consola se ha actualizado de forma automática. Todos los conectores nuevos que cree en la consola utilizarán la arquitectura actualizada. Si usa la API, ahora debe usar el objeto TemplateConfiguration en lugar del objeto S3DataSourceConfiguration para configurar el conector.
Los conectores configurados con la antigua arquitectura de consola y API seguirán funcionando tal y como estaban configurados. Sin embargo, no podrá editarlos ni actualizarlos. Si desea editar o actualizar la configuración del conector, debe crear un conector nuevo.
Se recomienda migrar el flujo de trabajo del conector a la versión actualizada. Está previsto que la compatibilidad para los conectores configurados con la arquitectura anterior finalice en junio de 2024.
Puede conectarse a su origen de datos de Amazon S3 mediante la consola de Amazon Kendra o la API TemplateConfiguration.
Para solucionar problemas del conector de origen de datos de S3 de Amazon Kendra, consulte Solución de problemas con los orígenes de datos.
Características admitidas
-
Asignaciones de campo
-
Control de acceso de usuarios
-
Filtros de inclusión/exclusión
-
Sincronizaciones del contenido completo e incremental
-
Nube privada virtual (VPC)
Requisitos previos
Antes de poder utilizar Amazon Kendra para indexar el origen de datos de S3, realice estos cambios en sus cuentas de S3 y AWS.
En S3, asegúrese de que:
-
Ha copiado el nombre del bucket de Amazon S3.
El bucket debe estar en la misma región que el índice de Amazon Kendra y este debe tener permiso para acceder al bucket que contenga los documentos.
-
Ha comprobado que cada documento es único en S3 y en otros orígenes de datos que vaya a utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. Los ID de documento son globales para un índice y deben ser únicos por índice.
En la cuenta de AWS, asegúrese de que:
Si no tiene un rol de IAM existente, puede usar la consola para crear un nuevo rol de IAM al conectar el origen de datos de S3 a Amazon Kendra. Si utiliza la API, debe proporcionar el ARN de un rol de IAM existente y un ID de índice.
Instrucciones de conexión
Para conectar Amazon Kendra al origen de datos de S3, debe proporcionar los detalles necesarios del origen de datos de S3 para que Amazon Kendra pueda acceder a los datos. Si aún no ha configurado S3 para Amazon Kendra, consulte Requisitos previos.
- Console
-
Para conectar Amazon Kendra a Amazon S3
-
Inicie sesión en Consola de administración de AWS y abra la consola de Amazon Kendra.
-
En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.
Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.
-
En la página Introducción, seleccione Agregar origen de datos.
-
En la página Agregar origen de datos, seleccione el Conector de S3 y, a continuación, seleccione Agregar conector. Si usa la versión 2 (si corresponde), elija el Conector de S3 con la etiqueta V2.0.
-
En la página Especificar detalles del origen de datos, introduzca la siguiente información:
-
En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.
-
(Opcional) Descripción: introduzca una descripción opcional para el origen de datos.
-
En Idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.
-
En Etiquetas, para Agregar nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar los recursos o hacer un seguimiento de los costos de AWS.
-
Elija Siguiente.
-
En la página Definir acceso y seguridad, introduzca la siguiente información opcional:
-
Rol de IAM: elija un rol de IAM existente o cree un nuevo rol de IAM para acceder a las credenciales del repositorio y al contenido del índice.
Los roles de IAM utilizados para los índices no se pueden usar para los orígenes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.
-
Nube privada virtual (VPC): puede optar por utilizar una VPC. Si es así, debe agregar Subredes y Grupos de seguridad de VPC.
-
Elija Siguiente.
-
En la página Configurar ajustes de sincronización, introduzca la siguiente información:
-
En Ubicación de origen de datos: especifique la ruta al bucket de Amazon S3 donde se almacenan los datos. Seleccione Examinar S3 para elegir el bucket de S3.
-
En Tamaño máximo de archivo: especifique un límite en MB para rastrear solo los archivos que estén por debajo de este límite. El tamaño de archivo máximo que Amazon Kendra puede permitir es de 50 MB.
-
(Opcional) En Ubicación de la carpeta del prefijo de los archivos de metadatos: especifique la ruta a la carpeta en la que se almacenan los campos o atributos y otros metadatos de los documentos. Seleccione Examinar S3 para localizar la carpeta de metadatos.
-
(Opcional) En Ubicación del archivo de configuración de la lista de control de acceso: especifique la ruta al archivo que contiene una estructura JSON de sus usuarios y su acceso a los documentos. Seleccione Examinar S3 para localizar el archivo de la ACL.
-
(Opcional) Seleccionar clave de descifrado: seleccione esta opción para usar una clave de descifrado. Puede elegir usar una clave de AWS KMS existente.
-
(Opcional) En Configuración adicional: agregue patrones para incluir o excluir determinados archivos. Todas las rutas se expresan con relación al bucket de S3 de ubicación del origen de datos.
-
Modo de sincronización: elija cómo desea actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar el origen de datos con Amazon Kendra por primera vez, todo el contenido se rastrea y se indexa de forma predeterminada. Debe ejecutar una sincronización completa de los datos si la sincronización inicial falló, incluso si no selecciona la sincronización completa como opción de modo de sincronización.
-
Sincronización completa: se vuelve a indexar todo el contenido, reemplazando el contenido existente cada vez que el origen de datos se sincronice con el índice.
-
Sincronización nueva y modificada: se indexa solo contenido nuevo y modificado cada vez que el origen de datos se sincronice con el índice. Amazon Kendra puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido modificado desde la última sincronización.
-
En Programación de ejecución de sincronización, en Frecuencia: elija la frecuencia con la que desea sincronizar el contenido del origen de datos y actualizar el índice.
-
Elija Siguiente.
-
En la página Establecer asignaciones de campos, especifique la siguiente información opcional:
-
Asignaciones de campos predeterminados: seleccione uno de los campos de origen de datos predeterminados generados por Amazon Kendra que desee asignar al índice.
-
Agregar campo: elija esta opción para agregar campos de origen de datos personalizados para crear un nombre de campo de índice al que asignarlos y el tipo de datos del campo.
-
Elija Siguiente.
-
En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.
- API
-
Para conectar Amazon Kendra a Amazon S3
Debe especificar un JSON del esquema del origen de datos mediante la API TemplateConfiguration. Debe proporcionar la siguiente información:
-
Origen de datos: especifique el tipo de origen de datos como S3 cuando utiliza el esquema JSON de TemplateConfiguration. Especifique también el origen de datos como TEMPLATE al llamar a la API CreateDataSource.
-
BucketName: el nombre del bucket que contiene los documentos.
-
Modo de sincronización: especifique cómo Amazon Kendra debe actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar el origen de datos con Amazon Kendra por primera vez, todo el contenido se rastrea y se indexa de forma predeterminada. Debe ejecutar una sincronización completa de los datos si la sincronización inicial falló, incluso si no selecciona la sincronización completa como opción de modo de sincronización. Puede elegir entre las siguientes opciones:
-
FORCED_FULL_CRAWL para volver a indexar todo el contenido, reemplazando el contenido existente cada vez que el origen de datos se sincronice con el índice.
-
FULL_CRAWL para indexar solo contenido nuevo, modificado y eliminado cada vez que el origen de datos se sincronice con el índice. Amazon Kendra puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido modificado desde la última sincronización.
-
Rol de IAM: especifique a RoleArn cuándo llamar a CreateDataSource para proporcionar a un rol de IAM permisos para acceder a su secreto de Secrets Manager y para llamar a las API públicas necesarias para el conector de S3 y Amazon Kendra. Para obtener más información, consulte Roles de IAM para orígenes de datos de S3.
También puede añadir las siguientes características opcionales:
-
Nube privada virtual (VPC): especifique a VpcConfiguration cuándo llamar a CreateDataSource. Para obtener más información, consulte Configuración de Amazon Kendra para usar una Amazon VPC.
-
Filtros de inclusión y exclusión: especifique si desea incluir o excluir determinados nombres de archivos, tipos de archivos o rutas de archivos. Utilice patrones globales (patrones que pueden expandir un patrón comodín para convertirlo en una lista de nombres de rutas que coincidan con el patrón dado). Para obtener ejemplos, consulte Uso de filtros de exclusión e inclusión en la Referencia de comandos de la CLI de AWS.
-
Configuración de metadatos de documentos y control de acceso: agregue archivos de metadatos de documentos y control de acceso que contienen información como la URI de origen, el autor del documento o campos y atributos de documentos personalizados, así como los usuarios y a qué documentos pueden acceder. Cada archivo de metadatos contiene metadatos sobre un solo documento.
-
Asignaciones de campos: elija asignar los campos del origen de datos de S3 a los campos de índice de Amazon Kendra. Para obtener más información, consulte Asignación de campos de origen de datos.
El campo del cuerpo del documento o el cuerpo del documento equivalente de los documentos es obligatorio para que Amazon Kendra busque en los documentos. Debe asignar el nombre del campo del cuerpo del documento en el origen de datos al nombre del campo de índice _document_body. Todos los demás campos son opcionales.
Para obtener una lista de otras claves JSON importantes que debe configurar, consulte el Esquema de plantilla de S3.
Más información
Para obtener más información acerca de la integración de Amazon Kendra con el origen de datos de S3, consulte: