Conexión a Microsoft SharePoint para la base de conocimiento - Amazon Bedrock

Conexión a Microsoft SharePoint para la base de conocimiento

Microsoft SharePoint es un servicio colaborativo basado en la web para trabajar en documentos, páginas web, sitios web, listas y mucho más. Puede conectarse a la instancia de SharePoint para su base de conocimientos de Amazon Bedrock mediante la Consola de administración de AWS de Amazon Bedrock o la API de CreateDataSource (consulte los SDK compatibles con Amazon Bedrock y AWS CLI).

nota

El conector del origen de datos de SharePoint está en versión preliminar y sujeta a cambios.

Los orígenes de datos de Microsoft SharePoint no admiten datos multimodales, como tablas, gráficos, diagramas u otras imágenes.

Amazon Bedrock admite la conexión a instancias de SharePoint Online. Actualmente no se admite el rastreo de documentos de OneNote. Actualmente, solo el almacén vectorial de Amazon OpenSearch sin servidor se puede usar con este origen de datos.

Existen límites en cuanto al número de archivos y MB por archivo que pueden rastrearse. Consulte Cuotas de las bases de conocimientos.

Características admitidas

  • Detección automática de los campos principales del documento

  • Filtros de inclusión o exclusión de contenido

  • El contenido incremental se sincroniza para añadir, actualizar o eliminar contenido

  • Autenticación App-Only de SharePoint

Requisitos previos

SharePoint (Online)

En su instancia de SharePoint (Online), realice los siguientes pasos para usar la autenticación App-Only de SharePoint:

  • Tomar nota de las URL de su sitio de SharePoint Online. Por ejemplo, https://yourdomain.sharepoint.com/sites/mysite. La URL debe empezar por https y contener sharepoint.com. La URL de su sitio debe ser el sitio de SharePoint real, no sharepoint.com/ o sites/mysite/home.aspx.

  • Tome nota del nombre de dominio de las URL de la instancia de SharePoint Online.

  • Copie su ID de inquilino de Microsoft 365. Puede encontrar su ID de inquilino en las propiedades de su portal de Microsoft Entra. Consulte Find your Microsoft 365 tenant ID para obtener más información.

    nota

    Para ver un ejemplo de aplicación, consulte Registro de una aplicación cliente en Microsoft Entra ID (anteriormente conocido como Azure Active Directory) en el sitio web de Microsoft Learn.

  • Configure las credenciales App-Only de SharePoint.

  • Copie el ID y el valor del secreto del cliente al conceder permiso a App-Only de SharePoint. Para obtener más información, consulte Granting access using SharePoint App-Only.

    nota

    No necesita configurar ningún permiso de API para App-Only de SharePoint. Sin embargo, debe configurar los permisos APP en SharePoint. Para obtener más información sobre los permisos APP necesarios, consulte la documentación de Microsoft sobre cómo conceder acceso mediante App-Only de SharePoint.

Cuenta de AWS

En la cuenta de AWS, asegúrese de:

  • Almacenar sus credenciales de autenticación en un secreto de AWS Secrets Manager y tomar nota del nombre de recurso de Amazon (ARN) del secreto. Siga las instrucciones de la sección Configuración de la conexión que aparecen en esta página para incluir los pares clave-valor que deben incluirse en el secreto.

  • Incluir los permisos necesarios para conectarse al origen de datos en la política de roles y permisos de AWS Identity and Access Management (IAM) de su base de conocimientos. Para obtener más información sobre los permisos necesarios para que este origen de datos se añada a su rol de IAM en la base de conocimientos, consulte Permisos para acceder a los orígenes de datos.

nota

Si utiliza la consola, puede ir a AWS Secrets Manager para agregar el secreto o usar un secreto existente como parte del paso de configuración del origen de datos. El rol de IAM con todos los permisos necesarios se puede crear automáticamente como parte de los pasos de la consola para crear una base de conocimientos. Una vez que haya configurado el origen de datos y otras configuraciones, el rol de IAM con todos los permisos necesarios se aplicará a su base de conocimientos específica.

Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No recomendamos reutilizar las credenciales y los secretos en distintos orígenes de datos.

Configuración de la conexión

Para conectarse a la instancia de SharePoint, debe proporcionar la información de configuración necesaria para que Amazon Bedrock pueda acceder a sus datos y rastrearlos. También debe seguir los Requisitos previos.

En esta sección se incluye un ejemplo de configuración para este origen de datos.

Para obtener más información sobre la detección de campos de documento, los filtros de inclusión o exclusión, la sincronización incremental, las credenciales de autenticación secretas y su funcionamiento, seleccione lo siguiente:

El conector del origen de datos detecta y rastrea automáticamente todos los campos de metadatos principales de sus documentos o del contenido. Por ejemplo, el conector del origen de datos puede rastrear el equivalente del cuerpo del documento de sus documentos, el título del documento, la fecha de creación o modificación del documento u otros campos principales que puedan aplicarse a los documentos.

importante

Si el contenido incluye información confidencial, Amazon Bedrock podría responder utilizando información confidencial.

Puede aplicar operadores de filtrado a los campos de metadatos para mejorar aún más la relevancia de las respuestas. Por ejemplo, documente “epoch_modification_time” o el número de segundos transcurridos desde el 1 de enero de 1970 hasta que se actualizó el documento por última vez. Puede filtrar por los datos más recientes, donde “epoch_modification_time” es mayor que un número determinado. Para obtener más información sobre los operadores de filtrado que puede aplicar a los campos de metadatos, consulte Metadatos y filtrado.

Puede incluir o excluir el rastreo de determinado contenido. Por ejemplo, puede especificar un patrón de exclusión de prefijo o expresión regular para evitar el rastreo de cualquier archivo que contenga la palabra “privado” en el nombre del archivo. También puede especificar un patrón de exclusión de prefijo o expresión regular para incluir determinadas entidades o tipos de contenido. Si especifica un filtro de inclusión y exclusión y ambos coinciden con un documento, el filtro de exclusión tiene prioridad y el documento no se rastrea.

Un ejemplo de patrón de expresiones regulares para excluir o filtrar archivos PDF que contienen la palabra “privado” en el nombre del archivo: ".*private.*\\.pdf".

Puede aplicar filtros de inclusión o exclusión a los siguientes tipos de contenido:

  • Page: título de la página principal

  • Event: nombre del evento

  • File: nombre del archivo con su extensión para los archivos adjuntos y todos los archivos del documento

Actualmente no se admite el rastreo de documentos de OneNote.

El conector del origen de datos rastrea el contenido nuevo, modificado y eliminado cada vez que el origen de datos se sincroniza con la base de conocimientos. Amazon Bedrock puede utilizar el mecanismo del origen de datos para realizar un seguimiento de los cambios en el contenido y rastrear el contenido modificado desde la última sincronización. Al sincronizar el origen de datos con la base de conocimientos por primera vez, todo el contenido se rastrea de forma predeterminada.

Para sincronizar el origen de datos con la base de conocimientos, utilice la API de StartIngestionJob o seleccione su base de conocimientos en la consola y seleccione Sincronizar en la sección de información general del origen de datos.

importante

Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos bedrock:Retrieve para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte Permisos de la base de conocimientos.

Si utiliza la autenticación App-Only de SharePoint, las credenciales de autenticación secretas en AWS Secrets Manager deben incluir los siguientes pares de clave-valor:

  • clientId: ID de cliente asociado a la aplicación Microsoft Entra SharePoint

  • clientSecret: secreto de cliente asociado a la aplicación Microsoft Entra SharePoint

  • sharePointClientId: ID de cliente generado al registrar su aplicación de SharePoint para la autenticación App-Only

  • sharePointClientSecret: secreto de cliente generado al registrar su aplicación de SharePoint para la autenticación App-Only

nota

Su secreto en AWS Secrets Manager debe usar la misma región que su base de conocimiento.

Console
Conexión de una instancia de SharePoint a la base de conocimiento
  1. Siga los pasos que se indican en Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock y elija SharePoint como el origen de datos.

  2. Proporcione un nombre y una descripción opcional para el origen de datos.

  3. Proporcione las URL de su sitio de SharePoint. Por ejemplo, para SharePoint Online, https://yourdomain.sharepoint.com/sites/mysite. La URL debe empezar por https y contener sharepoint.com. La URL de su sitio debe ser el sitio de SharePoint real, no sharepoint.com/ o sites/mysite/home.aspx.

  4. Proporcione el nombre de dominio de la URL de la instancia de SharePoint.

  5. En la sección Configuración avanzada, si lo desea, puede configurar lo siguiente:

    • Clave de KMS para el almacenamiento de datos transitorios: : puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la Clave administrada de AWS predeterminada o con su propia clave de KMS. Para obtener más información, consulte Cifrado del almacenamiento de datos transitorios durante la ingesta de datos.

    • Política de eliminación de datos: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.

  6. Proporcione la información de autenticación para conectarse a la instancia de SharePoint. Para la autenticación App-Only de SharePoint:

    1. Proporcione el ID de inquilino. Puede encontrar su ID de inquilino en las propiedades del portal de Azure Active Directory.

    2. Vaya a AWS Secrets Manager para añadir sus credenciales secretas o utilice un Nombre de recurso de Amazon (ARN) existente para el secreto que ha creado. El secreto debe contener el ID de cliente de SharePoint y el secreto de cliente de SharePoint generados al registrar App-Only en el nivel de inquilino o sitio, y el ID de cliente Entra y el secreto de cliente Entra generados al registrar la aplicación en Entra.

  7. (Opcional) En la sección Análisis y fragmentación del contenido, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:

  8. Elija usar patrones de filtros o expresiones regulares para incluir o excluir determinado contenido. De lo contrario, se rastreará todo el contenido estándar.

  9. Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock y continúe desde allí después de conectar el origen de datos.

API

El siguiente es un ejemplo de una configuración para conectarse a SharePoint Online para la base de conocimientos de Amazon Bedrock. El origen de datos se configura mediante la API con la AWS CLI o un SDK compatible, como Python. Después de llamar a CreateKnowledgeBase, llame a CreateDataSource para crear el origen de datos con la información de conexión en dataSourceConfiguration.

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo vectorIngestionConfiguration opcional, consulte Personalización de la ingesta de un origen de datos.

AWS Command Line Interface

aws bedrock-agent create-data-source \ --name "SharePoint Online connector" \ --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE"

Contenido de sharepoint-bedrock-connector-configuration.json

{ "sharePointConfiguration": { "sourceConfiguration": { "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de", "hostType": "ONLINE", "domain": "yourdomain", "siteUrls": [ "https://yourdomain.sharepoint.com/sites/mysite" ], "authType": "OAUTH2_SHAREPOINT_APP_ONLY_CLIENT_CREDENTIALS", "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint" }, "crawlerConfiguration": { "filterConfiguration": { "type": "PATTERN", "patternObjectFilter": { "filters": [ { "objectType": "File", "inclusionFilters": [ ".*\\.pdf" ], "exclusionFilters": [ ".*private.*\\.pdf" ] } ] } } } }, "type": "SHAREPOINT" }
importante

No se recomienda la autenticación OAuth2.0. Se recomienda usar la autenticación App-Only de SharePoint.

Con OAuth 2.0, puede autenticar y autorizar el acceso a los recursos de SharePoint para los conectores de SharePoint integrados con bases de conocimiento.

Requisitos previos

En SharePoint, para la autenticación OAuth 2.0, asegúrese de lo siguiente:

  • Tomar nota de las URL de su sitio de SharePoint Online. Por ejemplo, https://yourdomain.sharepoint.com/sites/mysite. La URL debe empezar por https y contener sharepoint.com. La URL de su sitio debe ser el sitio de SharePoint real, no sharepoint.com/ o sites/mysite/home.aspx.

  • Tome nota del nombre de dominio de las URL de la instancia de SharePoint Online.

  • Copie su ID de inquilino de Microsoft 365. Puede encontrar su ID de inquilino en las propiedades del portal de Microsoft Entra o en la aplicación OAuth.

    Tome nota del nombre de usuario y la contraseña de la cuenta de administrador de SharePoint y copie el ID de cliente y el valor secreto del cliente al registrar una aplicación.

    nota

    Para ver un ejemplo de aplicación, consulte Registro de una aplicación cliente en Microsoft Entra ID (anteriormente conocido como Azure Active Directory) en el sitio web de Microsoft Learn.

  • Se requieren ciertos permisos de lectura para conectarse a SharePoint al registrar una aplicación.

    • SharePoint: AllSites.Read (delegado). Lee los elementos de todas las colecciones de sitios

  • Es posible que tenga que desactivar Valores predeterminados de seguridad en el portal de Azure mediante un usuario administrador. Para obtener más información sobre la administración de la configuración predeterminada de seguridad en el portal de Azure, consulte la Microsoft documentation on how to enable/disable security defaults.

  • Es posible que tenga que desactivar la autenticación multifactor (MFA) en su cuenta de SharePoint para no impedir a Amazon Bedrock rastrear su contenido de SharePoint.

Para cumplir los requisitos previos, asegúrese de haber realizado los pasos que se detallan en Cuenta de AWS.

Credenciales de autenticación secretas

Para la configuración de conexión de OAuth2.0, puede realizar los mismos pasos para la detección automática de los campos principales del documento, los filtros de inclusión/exclusión y la sincronización incremental, tal como se describe en Configuración de la conexión.

Para la autenticación OAuth 2.0, las credenciales de autenticación secretas en AWS Secrets Manager deben incluir los siguientes pares de clave-valor.

  • username: Nombre de usuario del administrador de SharePoint

  • password: Contraseña de administrador de SharePoint

  • clientId: ID de cliente de la aplicación OAuth

  • clientSecret: secreto del cliente de la aplicación OAuth

Conexión de una instancia de SharePoint a la base de conocimiento

Conexión de una instancia de SharePoint a la base de conocimiento cuando se utiliza OAuth2.0:

  • (consola) En la consola, siga los mismos pasos que se describen en Conexión de una instancia de SharePoint a la base de conocimiento. cuando desee proporcionar la información de autenticación para conectarse a la instancia de SharePoint.

    • Proporcione el ID de inquilino. Puede encontrar su ID de inquilino en las propiedades del portal de Azure Active Directory.

    • Vaya a AWS Secrets Manager para añadir sus credenciales de autenticación secretas o utilice un Nombre de recurso de Amazon (ARN) existente para el secreto que ha creado. Su secreto debe contener el nombre de usuario y la contraseña del administrador de SharePoint, así como el ID de cliente y el secreto de cliente de la aplicación registrados. Para ver un ejemplo de aplicación, consulte Registro de una aplicación cliente en Microsoft Entra ID (anteriormente conocido como Azure Active Directory) en el sitio web de Microsoft Learn.

  • (API) A continuación, se muestra un ejemplo del uso de la API CreateDataSource para crear un origen de datos con la información de conexión de OAuth2.0.

    aws bedrock-agent create-data-source \ --name "SharePoint Online connector" \ --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE"

    Contenido de sharepoint-bedrock-connector-configuration.json

    { "sharePointConfiguration": { "sourceConfiguration": { "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de", "hostType": "ONLINE", "domain": "yourdomain", "siteUrls": [ "https://yourdomain.sharepoint.com/sites/mysite" ], "authType": "OAUTH2_CLIENT_CREDENTIALS", "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint" }, "crawlerConfiguration": { "filterConfiguration": { "type": "PATTERN", "patternObjectFilter": { "filters": [ { "objectType": "File", "inclusionFilters": [ ".*\\.pdf" ], "exclusionFilters": [ ".*private.*\\.pdf" ] } ] } } } }, "type": "SHAREPOINT" }