Solución de problemas con los orígenes de datos - Amazon Kendra

Solución de problemas con los orígenes de datos

Esta sección puede ayudarle a resolver problemas comunes al configurar y usar conectores de origen de datos de Amazon Kendra.

No se han indexado mis documentos

Al sincronizar su índice de Amazon Kendra con un origen de datos, es posible que se produzcan problemas que impidan que se indexen los documentos. La indexación es un proceso que consta de dos pasos. En primer lugar, se comprueba el origen de datos para ver si hay documentos nuevos y actualizados que se deben indexar y se buscan documentos que se deben eliminar del índice. En segundo lugar, en el nivel del documento, se accede a cada documento y se indexa.

Se puede producir un error en cualquiera de estos pasos. Los errores de origen de datos se indican en la consola, en la sección Historial de ejecuciones de sincronización de la página de detalles del origen de datos. El estado del trabajo de sincronización puede ser correcto, incompleto o erróneo. También puede ver el número de documentos indexados y eliminados durante el trabajo. Si el estado es erróneo, se muestra un mensaje en la columna Detalles.

Los errores de documento se indican en Amazon CloudWatch Logs. Puede ver los errores en la consola de CloudWatch.

Para generar un informe de estado de sincronización de documentos, consulte Deseo generar un informe de estado de sincronización para mis documentos.

Ha fallado mi trabajo de sincronización

Un trabajo de sincronización suele fallar cuando hay un error de configuración en el índice o en el origen de datos. En la consola, encontrará el mensaje de error en la sección Historial de ejecuciones de sincronización de la página de detalles del origen de datos, en la columna Detalles. Los errores de documento se indican en Amazon CloudWatch Logs. El mensaje de error proporciona información sobre lo que ha fallado. El problema suele ser que el índice o el origen de datos no tienen los permisos adecuados de IAM. El mensaje de error describe los permisos que faltan. A continuación se muestran algunos de los mensajes de error que puede recibir:

Failed to create log group for job. Please make sure that the IAM role provided has sufficient permissions.

Si su rol de índice no tiene permiso para usar CloudWatch, el origen de datos no podrá crear un registro de CloudWatch. Si recibe este error, debe añadir permisos de CloudWatch al rol de índice.

Failed to access Amazon S3 file prefix (bucket name) while trying to crawl your metadata files. Please make sure the IAM role (ARN) provided has sufficient permissions.

Si utiliza un origen de datos de Amazon S3, Amazon Kendra debe tener permiso para acceder al bucket que contiene los documentos. Debe añadir permiso para que Amazon Kendra lea el bucket al rol de IAM del origen de datos.

The provided IAM role (ARN) could not be assumed. Please make sure Amazon Kendra is a trusted entity that is allowed to assume the role.

Amazon Kendra necesita permiso para asumir los roles de IAM del índice y del origen de datos. Debe añadir una política de confianza a los roles con permiso para la acción sts:AssumeRole.

Para ver las políticas de IAM que Amazon Kendra necesita para indexar un origen de datos, consulte Roles de IAM.

Para generar un informe de estado de sincronización de documentos, consulte Deseo generar un informe de estado de sincronización para mis documentos.

Mi trabajo de sincronización está incompleto

Por lo general, los trabajos quedan incompletos cuando han finalizado el proceso de origen de datos, pero se produce algún error durante el proceso a nivel de documento. Cuando un trabajo está incompleto, es posible que algunos de los documentos no se hayan indexado correctamente. En el caso de un origen de datos de Amazon S3, las causas por las que un trabajo está incompleto son:

  • Los metadatos de uno o más documentos no eran válidos.

  • Cuando se envían documentos para su indexación pero no se ha enviado al menos un documento.

  • Cuando se envían documentos para su eliminación del índice pero no se ha enviado al menos un documento.

Para solucionar los problemas con los trabajos de sincronización incompletos, consulte primero los registros de CloudWatch.

  1. En la columna de detalles, seleccione Ver detalles en CloudWatch.

  2. Revise los mensajes de error para ver qué causó el error en el documento.

Para generar un informe de estado de sincronización de documentos, consulte Deseo generar un informe de estado de sincronización para mis documentos.

Mi trabajo de sincronización se ha realizado correctamente, pero no hay documentos indexados

En algunas ocasiones, la ejecución de un trabajo de sincronización de índices se marca como correcto, pero no hay ningún documento nuevo o actualizado indexado en el momento esperado. Algunas de las causas posibles son:

  • Compruebe en CloudWatch la métrica DocumentsSubmittedForIndexingFailed para ver si algún documento no se ha sincronizado. Compruebe los registros de CloudWatch para obtener más información.

  • En el caso de un origen de datos de Amazon S3, es posible que haya introducido un nombre o un prefijo de bucket de Amazon Kendra incorrectos. Asegúrese de que el bucket que Amazon Kendra está utilizando es el que contiene los documentos que se deben indexar.

  • Al volver a indexar un documento que no se pudo indexar en un trabajo anterior, Amazon Kendra no lo indexará a menos que haya cambiado el documento o el archivo de metadatos asociado.

Para generar un informe de estado de sincronización de documentos, consulte Deseo generar un informe de estado de sincronización para mis documentos.

Tengo problemas con el formato de los archivos al sincronizar mi origen de datos

Si tiene problemas con el formato de los archivos al añadir archivos al origen de datos o al sincronizar el origen de datos, asegúrese de que los tipos de documento sean compatibles con Amazon Kendra. Para obtener una lista de los tipos de documentos compatibles con Amazon Kendra, consulte Tipos o formatos de documentos.

Si utiliza la API BatchPutDocument con archivos de texto sin formato, especifique PLAIN_TEXT como el tipo de contenido.

Quiero generar un informe del historial de sincronización de mis documentos

Puede ver un informe de historial de ejecuciones de sincronización en el nivel de documento en CloudWatch para el trabajo de sincronización del origen de datos seleccionando Ver informe. Un informe de historial de ejecuciones de sincronización incluirá detalles sobre el progreso y el estado de cada documento en el trabajo de sincronización. Muestra si un documento se ha realizado correctamente, si ha fallado o si se ha omitido durante las etapas de rastreo, sincronización e indexación. También encontrará cualquier mensaje de error relacionado con documentos fallidos u omitidos. Si el informe no muestra los resultados de un trabajo de sincronización en curso, es posible que los registros aún no estén disponibles. Vuelva a consultarlo más tarde, ya que los datos se van emitiendo al informe a medida que se producen eventos durante el proceso de sincronización.

Para acceder al informe de historial de ejecuciones de sincronización, siga estos pasos:

  1. Abra la consola Amazon Kendra en https://console.aws.amazon.com/kendra/.

  2. En el menú de navegación de la izquierda, en Administración de datos, seleccione Orígenes de datos y elija el origen de los datos.

  3. En la página de resumen del origen de datos, desplácese hacia abajo y seleccione la pestaña Historial de sincronización.

  4. En Historial de ejecuciones de sincronización, seleccione Acciones.

  5. En Acciones, seleccione Ver informe. Se le redirigirá a la consola de CloudWatch, donde podrá acceder al informe.

nota

Un historial de ejecuciones de sincronización registra si un documento se ha indexado correctamente durante la ingesta, incluidas las ACL y los metadatos adjuntos, para todos los conectores compatibles con Amazon Kendra.

Si usa el conector de Amazon S3:

Además de ver el informe del historial de ejecuciones de sincronización en el nivel de documento en CloudWatch, puede generar informes de historial de sincronizaciones para cada documento del origen de datos de Amazon S3 y copiarlos en un bucket de Amazon S3. Durante este proceso, los datos se cifran mediante claves de AWS KMS y solo usted puede verlos. El estado del documento del que se ha informado puede ser uno de los siguientes: erróneo, completado o satisfactorio con errores. Antes de poder generar informes de estado de sincronización para Amazon S3, debe hacer lo siguiente:

  • Agregar la siguiente entidad principal de servicio de Amazon Kendra a la política de acceso de Amazon S3.

  • Crear un bucket de Amazon S3 con permisos de acceso a Amazon Kendra.

Si utiliza la consola, para generar un informe de historial de sincronizaciones para Amazon S3, elija activar la opción Generar informes en la sección Informes de historial de sincronizaciones - opcional en la página de Detalles del origen de datos. A continuación, ingrese la ubicación del bucket de Amazon S3 y elija entre las opciones de configuración disponibles. Los informes se generarán a partir de la siguiente sincronización, una vez que haya activado la opción de generar informes.

Si elimina el bucket de Amazon S3, perderá los datos de registro y tendrá que configurar uno nuevo para almacenar los nuevos informes de sincronización.

nota

Un informe de historial de sincronizaciones solo proporciona información sobre si un conector de Amazon S3 ha rastreado e ingerido datos correctamente.

¿Cuánto tiempo lleva sincronizar un origen de datos?

Si no hay actualizaciones en los documentos, el tiempo de sincronización de un índice de Amazon Kendra aumenta en proporción lineal al número de documentos. Por ejemplo, 1000 documentos sin ninguna actualización tardarían unos cinco minutos en sincronizarse y 2000 documentos sin ninguna actualización tardarían unos 10 minutos. Si hay actualizaciones en los documentos, el tiempo de sincronización aumentará en función del número de documentos actualizados.

¿Cuánto cuesta sincronizar un origen de datos?

Al sincronizar el índice, se tardan dos minutos en calentar y activar Amazon EC2 para establecer las conexiones necesarias. No se le cobrará nada durante este proceso. El medidor de uso solo comienza después de que se inicie el trabajo de sincronización. Para obtener más información sobre los precios de Amazon Kendra, consulte Precios de Amazon Kendra.

Aparece un error de autorización de Amazon EC2

Si se produce un error de operación no autorizada de Amazon EC2 durante la sincronización de un origen de datos de una nube privada virtual (VPC), es probable que su rol de IAM de la VPC carezca de los permisos necesarios. Compruebe que el rol de IAM que utiliza para el origen de datos tenga los permisos adjuntos. Para obtener más información, consulte Rol de IAM de la nube privada virtual.

Su índice de Amazon Kendra solo puede acceder a los archivos para los que un origen de datos de Amazon S3 le haya otorgado permisos de acceso. Por ejemplo, Amazon Kendra no puede modificar los permisos de Amazon S3 que determinan si un objeto debe ser público o cifrado. Amazon Kendra tampoco tiene los permisos predeterminados para crear o devolver un enlace firmado para los objetos de Amazon S3. Si desea activar los enlaces firmados para los objetos de Amazon S3 en un índice de Amazon Kendra, tiene dos opciones:

  • Puede firmar los resultados de la consulta del índice con el objeto URI de origen antes de devolver el resultado a la página de búsqueda. Para ver una descripción paso a paso de este proceso, consulte Uso compartido de objetos con URL prefirmadas.

  • Puede anular el URI de origen de metadatos de objeto de Amazon S3 y hacer que el servicio esté disponible a través de una red de entrega de contenido (CDN) de CloudFront conectada a un bucket de Amazon S3. O bien, puede usar un punto de conexión proxy de API Gateway que devuelva una URL prefirmada y redirigirlo a él.

Aparece un mensaje de error de acceso denegado al utilizar un archivo de certificado SSL

Si aparece un error de acceso denegado al utilizar un certificado SSL con su origen de datos, asegúrese de que su rol de IAM tenga el permiso para acceder al archivo del certificado SSL en la ubicación especificada. Si el certificado está cifrado con una clave de AWS KMS, su rol de IAM también debe tener permiso para descifrar mediante la clave de AWS KMS. Para obtener más información, consulte Autenticación y control de acceso de AWS KMS.

Aparece un error de autorización al usar un origen de datos de SharePoint

Si aparece un error de autorización al sincronizar el índice con un origen de datos de SharePoint, confirme que tiene un rol de administrador del sitio asignado en SharePoint.

Mi índice no rastrea los documentos de mi origen de datos de Confluence

Si su índice de Amazon Kendra no rastrea los documentos de su origen de datos de Confluence durante el proceso de sincronización, confirme que forma parte de los grupos de administradores de Confluence.