Google Drive Connector V2.0 - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Google Drive Connector V2.0

Google Drive es un servicio de almacenamiento de archivos basado en la nube. Puedes usarlo Amazon Kendra para indexar los documentos y comentarios almacenados en las carpetas de unidades compartidas, Mis unidades de disco y Compartidas conmigo de tu fuente de datos de Google Drive. Se pueden indexar tanto los documentos de Google Workspace como los documentos que aparecen en Tipos de documentación. También se pueden usar filtros de inclusión y exclusión para indexar el contenido por nombre de archivo, tipo de archivo y ruta de archivo.

nota

El conector V1.0 de Google Drive y la DriveConfiguration API de Google finalizaron en 2023. Recomendamos migrar o utilizar el conector V2.0 o la API de Google Drive. TemplateConfiguration

Para solucionar problemas del conector de fuentes de datos de Amazon Kendra Google Drive, consulta. Solución de problemas con los orígenes de datos

Características admitidas

  • Asignaciones de campo

  • Control de acceso de usuarios

  • Filtros de inclusión/exclusión

  • Sincronizaciones de contenido completas e incrementales

  • Nube privada virtual (VPC)

Requisitos previos

Antes de poder utilizarla Amazon Kendra para indexar tu fuente de datos de Google Drive, realiza estos cambios en tu Google Drive y en tus AWS cuentas.

En Google Drive, asegúrese de que:

  • Bien se le ha concedido el acceso mediante un rol de superadministrador o es un usuario con privilegios administrativos. No necesita un rol de superadministrador si este le ha otorgado el acceso.

  • Ha configurado las credenciales de conexión de la cuenta de servicio de Google Drive, que incluyen el correo electrónico de la cuenta de administrador, el correo electrónico del cliente (correo electrónico de la cuenta de servicio) y la clave privada. Consulte la Documentación de Google Cloud sobre cómo crear y eliminar las claves de las cuentas de servicio.

    nota

    Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).

  • Creó una cuenta de servicio de Google Cloud (una cuenta con autoridad delegada para asumir una identidad de usuario) con la opción Habilitar la delegación en todo el dominio de G Suite para la server-to-server autenticación y, a continuación, generó una clave privada JSON con la cuenta.

    nota

    La clave privada se debe generar después de crear la cuenta de servicio.

  • Ha agregado la API del SDK de administración y la API de Google Drive a su cuenta de usuario.

  • Opcional: configuré las credenciales de conexión de Google Drive OAuth 2.0 que contienen el ID de cliente, el secreto del cliente y el token de actualización como credenciales de conexión para un usuario específico. Las necesita para rastrear los datos de las cuentas individuales. Consulta la documentación de Google sobre el uso de la OAuth versión 2.0 para acceder APIs.

  • Has añadido (o has pedido a un usuario con una función de superadministrador que la añada) los siguientes OAuth ámbitos a tu cuenta de servicio mediante una función de superadministrador. Estos ámbitos de API son necesarios para rastrear todos los documentos y la información de control de acceso (ACL) de todos los usuarios de un dominio de Google Workspace:

    • https://www.googleapis.com/auth/Drive.readOnly: consulta y descarga todos tus archivos de Google Drive

    • https://www.googleapis.com/auth/drive.metadata.readonly: consulta los metadatos de los archivos de Google Drive

    • https://www.googleapis.com/auth/admin.directory.group.readOnly: permite recuperar únicamente la información del grupo, el alias del grupo y los miembros. Esto es necesario para el Identity Amazon Kendra Crawler.

    • https://www.googleapis.com/auth/admin.directory.user.readOnly: permite recuperar únicamente usuarios o alias de usuario. Esto es necesario para incluir a los usuarios en el Identity Crawler y para configurarlos. Amazon Kendra ACLs

    • https://www.googleapis.com/auth/Plataforma en la nube: permite generar un token de acceso para recuperar el contenido de archivos grandes de Google Drive.

    • https://www.googleapis.com/auth/forms.body.readonly: permite obtener datos de Google Forms.

    Para que sea compatible con la API Forms, añada el siguiente ámbito adicional:

    • https://www.googleapis.com/auth/forms.body.solo lectura

  • Ha comprobado que cada documento es único en Google Drive y en otros orígenes de datos que vaya a utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. IDs Los documentos son globales para un índice y deben ser únicos por índice.

En el tuyo Cuenta de AWS, asegúrate de tener:

  • Creó un Amazon Kendra índice y, si usa la API, anotó el ID del índice.

  • Creó un IAM rol para su fuente de datos y, si usa la API, anotó el ARN del IAM rol.

    nota

    Si cambias el tipo de autenticación y las credenciales, debes actualizar tu IAM rol para acceder al ID AWS Secrets Manager secreto correcto.

  • Ha guardado sus credenciales de autenticación de Google Drive en un secreto de AWS Secrets Manager y, si utiliza la API, ha anotado el ARN del secreto.

    nota

    Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).

Si no tienes un IAM rol o un secreto existentes, puedes usar la consola para crear un nuevo IAM rol y un Secrets Manager secreto al conectar tu fuente de datos de Google Drive Amazon Kendra. Si utiliza la API, debe proporcionar el ARN de un IAM rol y un Secrets Manager secreto existentes y un ID de índice.

Instrucciones de conexión

Para conectarte Amazon Kendra a tu fuente de datos de Google Drive, debes proporcionar los detalles necesarios de tu fuente de datos de Google Drive para que Amazon Kendra puedas acceder a tus datos. Si aún no has configurado Google Drive para Amazon Kendra verRequisitos previos.

Console

Para conectarse Amazon Kendra a Google Drive

  1. Inicia sesión en la Amazon Kendra consola AWS Management Console y ábrela.

  2. En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.

    nota

    Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.

  3. En la página Introducción, seleccione Agregar origen de datos.

  4. En la página Añadir fuente de datos, selecciona el conector de Google Drive y, a continuación, selecciona Añadir conector. Si utilizas la versión 2 (si corresponde), elige el conector de Google Drive con la etiqueta «V2.0".

  5. En la página Especificar detalles del origen de datos, introduzca la siguiente información:

    1. En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.

    2. (Opcional) Descripción: introduzca una descripción opcional para el origen de datos.

    3. En el idioma predeterminado: elige un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.

    4. En Etiquetas, para añadir una nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar sus recursos o realizar un seguimiento de sus AWS costes.

    5. Elija Next (Siguiente).

  6. En la página Definir acceso y seguridad, introduzca la siguiente información:

    1. Autorización: active o desactive la información de la lista de control de acceso (ACL) de sus documentos, si tiene una ACL y desea utilizarla para el control de acceso. La ACL especifica a qué documentos pueden acceder los usuarios y los grupos. La información de la ACL se utiliza para filtrar los resultados de búsqueda en función del acceso del usuario o su grupo a los documentos. Para obtener más información, consulte Filtrado de contexto de usuario.

    2. Para la autenticación: elija entre la cuenta de servicio de Google y la autenticación OAuth 2.0 según su caso de uso.

    3. AWS Secrets Manager secreto: elige un secreto existente o crea uno nuevo Secrets Manager para almacenar tus credenciales de autenticación de Google Drive. Si decide crear un secreto nuevo, se abrirá una ventana de secreto de AWS Secrets Manager .

      1. Si has elegido una cuenta de servicio de Google, introduce un nombre para tu secreto, el ID de correo electrónico del usuario administrador o «usuario de la cuenta de servicio» en la configuración de la cuenta de servicio (correo electrónico de administrador), el ID de correo electrónico de la cuenta de servicio (correo electrónico del cliente) y la clave privada que creaste en tu cuenta de servicio.

        Guarda y añade tu secreto

      2. Si has elegido la autenticación OAuth 2.0, introduce un nombre para el secreto, el identificador de cliente, el secreto de cliente y el token de actualización que creaste en tu OAuth cuenta. El identificador de correo del usuario (usuario cuyos detalles de conexión están configurados) se establecerá como ACL. El conector no establece otra información principal de usuario o grupo como ACL debido a las limitaciones de la API.

        Guarda y añade tu secreto.

    4. Nube privada virtual (VPC): puede optar por utilizar una VPC. Si es así, debe agregar Subredes y Grupos de seguridad de VPC.

    5. (Solo para usuarios de autenticación de cuentas de servicio de Google)

      Rastreador de identidad: especifique si se debe activar el rastreador Amazon Kendra de identidad. El rastreador de identidades utiliza la información de la lista de control de acceso (ACL) de los documentos para filtrar los resultados de la búsqueda en función del acceso del usuario o de su grupo a los documentos. Si tiene una ACL para sus documentos y decide utilizarla, también puede optar por activar el rastreador de identidades para configurar el filtrado Amazon Kendra de los resultados de búsqueda según el contexto del usuario. De lo contrario, si el rastreador de identidades está desactivado, se pueden realizar búsquedas públicas en todos los documentos. Si quieres usar el control de acceso para tus documentos y el rastreador de identidad está desactivado, también puedes usar la PutPrincipalMappingAPI para cargar información de acceso de usuarios y grupos para filtrar el contexto de los usuarios.

    6. IAM rol: elija un IAM rol existente o cree uno nuevo IAM para acceder a las credenciales del repositorio y al contenido del índice.

      nota

      IAM los roles utilizados para los índices no se pueden usar para las fuentes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.

    7. Elija Next (Siguiente).

  7. En la página Configurar ajustes de sincronización, introduzca la siguiente información:

    1. Sincronizar contenido: seleccione las opciones o el contenido que desee rastrear. Puedes elegir entre rastrear Mi disco duro (carpetas personales), el disco compartido (carpetas compartidas contigo) o ambos. También puedes incluir comentarios en los archivos.

    2. En Configuración adicional (opcional) También puede introducir la siguiente información opcional:

      1. Tamaño máximo de archivo: establece el límite de tamaño máximo MBs de los archivos que se van a rastrear.

      2. Correo electrónico del usuario: añada los correos electrónicos de los usuarios que desee incluir o excluir.

      3. Unidades compartidas: añada los nombres de las unidades compartidas que desee incluir o excluir.

      4. Tipos de MIME: añada los tipos de MIME que desee incluir o excluir.

      5. Patrones de expresiones regulares de entidades: añada patrones de expresiones regulares para incluir o excluir determinados archivos adjuntos de todas las entidades compatibles. Puede agregar hasta 100 patrones.

        Puede configurar patrones de inclusión/exclusión de expresiones regulares para el nombre del archivo, el tipo de archivo y la ruta del archivo.

        • Nombre de archivo: el nombre del archivo que se va a incluir o excluir. Por ejemplo, para indexar un archivo con su nombreteamroster.txt, proporcioneteamroster.

        • Tipo de archivo: el tipo de archivo que se va a incluir o excluir. Por ejemplo, .pdf .txt .docx.

        • Ruta del archivo: la ruta del archivo que se va a incluir o excluir. Por ejemplo, para indexar archivos únicamente dentro de la carpeta Products list de una unidad, proporcione/Products list.

    3. Modo de sincronización: elija cómo desea actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no eliges la sincronización completa como opción de modo de sincronización.

      • Sincronización completa: indexa todo el contenido de forma inmediata y reemplaza el contenido existente cada vez que la fuente de datos se sincronice con el índice.

      • Sincronización nueva y modificada: indexe solo el contenido nuevo y modificado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

      • Sincronización nueva, modificada o eliminada: indexe solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

      importante

      La API de Google Drive no admite la recuperación de comentarios de un archivo eliminado permanentemente. Los comentarios de los archivos colocados en la papelera se pueden recuperar. Cuando un archivo quede en la papelera, el conector eliminará los comentarios del Amazon Kendra índice.

    4. En Sincronizar programación de ejecución, en Frecuencia: elija la frecuencia con la que desea sincronizar el contenido de la fuente de datos y actualizar el índice.

    5. En Sincronizar el historial de ejecuciones, elija almacenar los informes generados automáticamente en una y Amazon S3 al sincronizar la fuente de datos. Esto resulta útil para realizar un seguimiento de los problemas al sincronizar la fuente de datos.

    6. Elija Next (Siguiente).

  8. En la página Establecer asignaciones de campos, especifique la siguiente información:

    1. Para archivos: seleccione entre los campos de la fuente de datos predeterminados Amazon Kendra generados que desee asignar a su índice.

      nota

      La API de Google Drive no admite la creación de campos personalizados. La asignación de campos personalizados no está disponible para el conector de Google Drive.

    2. Elija Next (Siguiente).

  9. En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.

API

Para conectarse Amazon Kendra a Google Drive

Debe especificar un JSON del esquema del origen de datos mediante la API TemplateConfiguration. Debe proporcionar la siguiente información:

  • Fuente de datos: especifique el tipo de fuente de datos como GOOGLEDRIVEV2 cuando utiliza la TemplateConfigurationEsquema JSON. Especifique también la fuente de datos TEMPLATE al llamar al CreateDataSourceAPI.

  • Tipo de autenticación: especifique si desea utilizar la autenticación de la cuenta de servicio o la autenticación OAuth 2.0.

  • Modo de sincronización: especifique cómo Amazon Kendra debe actualizarse el índice cuando cambie el contenido de la fuente de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no eliges la sincronización completa como opción de modo de sincronización. Puede elegir entre las siguientes opciones:

    • FORCED_FULL_CRAWLpara indexar todo el contenido de forma actualizada, sustituyendo el contenido existente cada vez que la fuente de datos se sincronice con el índice.

    • FULL_CRAWLpara indexar solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

    • CHANGE_LOGpara indexar solo el contenido nuevo y modificado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

    importante

    La API de Google Drive no admite la recuperación de comentarios de un archivo eliminado permanentemente. Los comentarios de los archivos colocados en la papelera se pueden recuperar. Cuando un archivo quede en la papelera, el conector eliminará los comentarios del Amazon Kendra índice.

  • Nombre secreto del recurso de Amazon (ARN): proporciona el nombre del recurso de Amazon (ARN) de un Secrets Manager secreto que contenga las credenciales de autenticación que creaste en tu cuenta de Google Drive. Si utiliza la autenticación de cuenta de servicio de Google, el secreto se almacena en una estructura JSON con las siguientes claves:

    { "clientEmail": "user account email", "adminAccountEmail": "service account email", "privateKey": "private key" }

    Si utilizas la autenticación OAuth 2.0, el secreto se almacena en una estructura JSON con las siguientes claves:

    { "clientID": "OAuth client ID", "clientSecret": "client secret", "refreshToken": "refresh token" }
  • IAM rol: especifique RoleArn cuándo llama CreateDataSource para proporcionar a un IAM rol permisos para acceder a su Secrets Manager secreto y para llamar al público requerido APIs para el conector de Google Drive y Amazon Kendra. Para obtener más información, consulte Roles de IAM para orígenes de datos de Google Drive.

También puede añadir las siguientes características opcionales:

  • Nube privada virtual (VPC): especifique a VpcConfiguration cuándo llamar a CreateDataSource. Para obtener más información, consulte ¿Se está configurando Amazon Kendra para usar un Amazon VPC.

  • Mis unidades, unidades compartidas y comentarios: puedes especificar si deseas rastrear este tipo de contenido.

  • Filtros de inclusión y exclusión: puede especificar si desea incluir o excluir determinadas cuentas de usuario, unidades compartidas y tipos de MIME.

    nota

    La mayoría de los orígenes de datos utilizan patrones de expresiones regulares, que son patrones de inclusión o exclusión denominados filtros. Si especifica un filtro de inclusión, solo se indexará el contenido que coincida con el filtro de inclusión. Los documentos que no coincidan con el filtro de inclusión no se indexan. Si especifica un filtro de inclusión y exclusión, los documentos que coincidan con el filtro de exclusión no se indexarán, aunque coincidan con el filtro de inclusión.

  • Lista de control de acceso (ACL): especifique si desea rastrear la información de la ACL de sus documentos, si tiene una ACL y desea utilizarla para el control de acceso. La ACL especifica a qué documentos pueden acceder los usuarios y los grupos. La información de la ACL se utiliza para filtrar los resultados de búsqueda en función del acceso del usuario o su grupo a los documentos. Para obtener más información, consulte Filtrado de contexto de usuario.

  • Rastreador de identidad: especifique si se debe activar el rastreador Amazon Kendra de identidad. El rastreador de identidades utiliza la información de la lista de control de acceso (ACL) de los documentos para filtrar los resultados de la búsqueda en función del acceso del usuario o de su grupo a los documentos. Si tiene una ACL para sus documentos y decide utilizarla, también puede optar por activar el rastreador de identidades para configurar el filtrado Amazon Kendra de los resultados de búsqueda según el contexto del usuario. De lo contrario, si el rastreador de identidades está desactivado, se pueden realizar búsquedas públicas en todos los documentos. Si quieres usar el control de acceso para tus documentos y el rastreador de identidad está desactivado, también puedes usar la PutPrincipalMappingAPI para cargar información de acceso de usuarios y grupos para filtrar el contexto de los usuarios.

  • Asignaciones de campos: elija asignar los campos del origen de datos de Google Drive a los campos de índice de Amazon Kendra . Para obtener más información, consulte Asignación de campos de origen de datos.

    nota

    El campo del cuerpo del documento o el cuerpo del documento equivalente de sus documentos es obligatorio Amazon Kendra para poder buscarlos. Debe asignar el nombre del campo del cuerpo del documento en la fuente de datos al nombre del campo de índice_document_body. Todos los demás campos son opcionales.

Para obtener una lista de otras claves JSON importantes que debe configurar, consulte el Esquema de plantilla de Google Drive.

Notas

  • La asignación de campos personalizados no está disponible para el conector de Google Drive, ya que la interfaz de usuario de Google Drive no admite la creación de este tipo de campos.

  • La API de Google Drive no admite la recuperación de comentarios de un archivo eliminado permanentemente. Sin embargo, los comentarios de los archivos colocados en la papelera se pueden recuperar. Cuando un archivo se coloca en la papelera, el Amazon Kendra conector eliminará los comentarios del Amazon Kendra índice.

  • La API de Google Drive no devuelve los comentarios presentes en un archivo .docx.

  • Si es el permiso para un determinado Google document (documento, hoja de cálculo, diapositiva, etc.) está configurado como Acceso general: cualquier persona que tenga el enlace o esté compartido con el dominio específico de su empresa, el documento no estará visible para los usuarios de búsqueda de Amazon Kendra hasta que el usuario que realiza la consulta haya accedido al documento.