SharePoint 连接器 V1.0 - Amazon Kendra

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SharePoint 连接器 V1.0

SharePoint 是一项协作建站服务,可用于自定义 Web 内容以及创建页面、网站、文档库和列表。如果您是 SharePoint 用户,则可以使用索Amazon Kendra引您的 SharePoint 数据源。

注意

SharePoint 连接器 V1.0/ SharePointConfiguration API 于 2023 年结束。我们建议迁移到或使用 SharePoint 连接器 V2.0/ TemplateConfiguration API。

要对Amazon KendraSharePoint 数据源连接器进行故障排除,请参阅数据来源故障排除

支持的功能

  • 字段映射

  • 用户访问控制

  • 包含/排除筛选条件

  • 更改日志

  • 虚拟私有云(VPC)

先决条件

在使用索Amazon Kendra引 SharePoint 数据源之前,请在 SharePoint 和AWS帐户中进行这些更改。

您需要提供身份验证凭证,这些凭据可以安全地存储在AWS Secrets Manager密钥中。

注意

我们建议您定期刷新或轮换您的凭证和密码。为了安全起见,请仅提供必要的访问权限级别。我们建议不要跨数据来源以及连接器版本 1.0 和 2.0(如果适用)重复使用凭证和密钥。

在中 SharePoint,请确保你有:

  • 记下了您要编制索引的 SharePoint 网站的网址。

  • SharePoint 在线版:

    • 已记下您的基本身份验证凭证,其中包含具有站点管理员权限的用户名和密码。

    • 可选:生成的 OAuth 2.0 凭据包含用户名、密码、客户端 ID 和客户机密钥。

    • 使用管理用户在 Azure 门户中停用安全默认值。有关在 Azure 门户中管理安全默认设置的更多信息,请参阅 Microsoft 关于如何设置 enable/disable 安全默认设置的文档

  • 对于 SharePoint 服务器:

    • 记下您的 SharePoint 服务器域名(活动目录中的 NetBIOS 名称)。您可以使用它以及您的 SharePoint 基本身份验证用户名和密码将 SharePoint 服务器连接到Amazon Kendra。

    注意

    如果您使用 SharePoint 服务器并且需要将访问控制列表 (ACL) 转换为电子邮件格式以便根据用户上下文进行筛选,请提供 LDAP 服务器 URL 和 LDAP 搜索库。或者,您也可以使用目录域覆盖。LDAP 服务器 URL 是完整的域名和端口号(例如,ldap://example.com:389)。LDAP 搜索库是域控制器的“example”和“com”。凭借目录域覆盖,您可以使用电子邮件域来代替 LDAP 服务器 URL 和 LDAP 搜索库。例如,username@example.com 的电子邮件域名是“example.com”。如果您不想验证域名,而只想使用您的电子邮件域名,则可以使用此替代方法。

  • 为您的 SharePoint 账户添加了以下权限:

    对于 SharePoint 清单

    • 打开项目 - 使用服务器端文件处理程序查看文档的来源。

    • 查看应用程序页面 - 查看表单、视图和应用程序页面。枚举列表。

    • 查看项目 - 查看列表中的项目和文档库中的文档。

    • 查看版本 - 查看列表项或文档的过去版本。

    对于 SharePoint 网站

    • 浏览目录-使用 SharePoint 设计器和 Web DAV 界面枚举网站中的文件和文件夹。

    • 浏览用户信息 - 查看有关网站用户的信息。

    • 枚举权限 - 枚举网站、列表、文件夹、文档或列表项的权限。

    • 打开 - 打开网站、列表或文件夹以访问容器内的项目。

    • 使用客户端集成功能-使用 SOAP、WebDAV、客户端对象模型或 SharePoint 设计器界面访问网站。

    • 使用远程接口 - 使用启动客户端应用程序的功能。

    • 查看页面 - 查看网站上的页面。

  • 已选中每个文档在您计划用于同一索引的其他数据源中 SharePoint 以及其他数据源中都是唯一的。您要用于编制索引的每个数据来源在所有数据来源中都不能包含相同的文档。文档对索引来说 IDs 是全局的,并且每个索引必须是唯一的。

在你的AWS 账户,请确保你有:

  • 已创建Amazon Kendra索引,如果使用 API,则记下索引 ID。

  • 为您的数据源@@ 创建了一个IAM角色,如果使用 API,请记下该角色的 ARN。IAM

    注意

    如果您更改了身份验证类型和证书,则必须更新您的IAM角色才能访问正确的AWS Secrets Manager密钥 ID。

  • 将您的 SharePoint 身份验证凭证存储在AWS Secrets Manager密钥中,如果使用 API,请记下该密钥的 ARN。

    注意

    我们建议您定期刷新或轮换您的凭证和密码。为了安全起见,请仅提供必要的访问权限级别。我们建议不要跨数据来源以及连接器版本 1.0 和 2.0(如果适用)重复使用凭证和密钥。

如果您没有现有的IAM角色或密钥,则可以在将 SharePoint 数据源连接到时使用控制台创建新的IAM角色和Secrets Manager密钥Amazon Kendra。如果您使用的是 API,则必须提供现有IAM角色和Secrets Manager密钥的 ARN 以及索引 ID。

连接说明

要Amazon Kendra连接到您的 SharePoint 数据源,您必须提供 SharePoint 凭据的详细信息,Amazon Kendra以便访问您的数据。如果您尚未进行配置, SharePoint 请参Amazon Kendra阅先决条件

Console

要连接Amazon Kendra到 SharePoint

  1. 登录AWS管理控制台并打开Amazon Kendra控制台

  2. 在左侧导航窗格中,选择索引,然后从索引列表中选择要使用的索引。

    注意

    您可以选择在索引设置下配置或编辑您的用户访问控制设置。

  3. 开始使用页面上,选择添加数据来源

  4. 添加数据源页面上,选择SharePoint 连接器 v1.0,然后选择添加数据源

  5. 指定数据来源详细信息页面上,输入以下信息:

    1. 名称和描述中,在数据来源名称中输入您的数据来源的名称。可以包含连字符,但不能包含空格。

    2. (可选)描述:输入数据来源的描述信息。

    3. 默认语言中,选择用于筛选文档以编制索引的语言。除非另行指定,否则语言默认为英语。在文档元数据中指定的语言会覆盖所选语言。

    4. 标签中,用于添加新标签-包括可选标签以搜索和筛选您的资源或跟踪您的AWS成本。

    5. 选择下一步

  6. 定义访问权限和安全性页面上,请输入以下信息:

    1. 对于托管方式-在 “SharePoint 联机” 和 “SharePoint服务器” 之间进行选择。

      1. SharePoint在线版-输入 URLs 特定于您的 SharePoint存储库的站点

      2. 对于SharePoint服务器-选择您的SharePoint 版本,输入 SharePoint 存储库的 URLs 特定站点,然后输入 SSL 证书位置的Amazon S3路径。

    2. (仅限SharePoint 服务器)对于 Web 代理-输入内部 SharePoint 实例的主机名端口号。端口号应为介于 0 到 65535 之间的数值。

    3. 对于身份验证 - 根据您的使用案例选择以下选项:

      1. 对于 SharePoint 联机-在基本身份验证和 OAuth 2.0 身份验证之间进行选择。

      2. 对于 SharePoint 服务器-在 “”、“LDAP” 和 “手动” 之间进行选择。

    4. fo AWSSecrets Managerr secre t-选择现有密钥或创建新Secrets Manager密钥来存储您的 SharePoint身份验证凭证。如果您选择创建新密钥,则会打开 AWS Secrets Manager 密钥窗口。您必须输入密钥名称。前缀 “AmazonKendra-SharePoint-” 会自动添加到您的密钥名称中。

    5. 创建 AWS Secrets Manager 密钥窗口中输入其他信息:

      1. 根据您的用例,从以下 SharePoint Cloud 身份验证选项中进行选择:

        1. 基本身份验证-输入您的 SharePoint 帐户用户名作为用户名,将 SharePoint 帐户密码输入为密码

        2. OAuth 2.0 身份验证-输入您的 SharePoint 帐户用户名作为用户名,将 SharePoint帐户密码输入为密码,将自动生成的唯一 SharePoint ID 作为客户端 ID, SharePoint 以及两者使用的共享密钥字符串Amazon Kendra作为客户机密。

      2. 根据您的用例,从以下 SharePoint服务器身份验证选项中进行选择:

        1. -输入您的 SharePoint 帐户用户名作为用户名,将您的 SharePoint 帐户密码输入为密码,并输入您的服务器域名

        2. LDAP —输入您的 SharePoint 帐户用户名作为用户名,将 SharePoint帐户密码输入为密码,输入您的 LDAP 服务器端点(例如包括协议和端口号ldap://example.com:389),以及您的 LDAP 搜索库(例如dc=example, dc=com)。

        3. 手动-输入您的 SharePoint 帐户用户名作为用户名,将您的 SharePoint 帐户密码输入为密码,并输入您的电子邮件域覆盖(目录用户或群组的电子邮件域)。

      3. 选择保存

    6. 虚拟私有云(VPC)- 您还必须添加子网VPC 安全组

      注意

      如果您使用 SharePoint 服务器,则必须使用 VPC。 Amazon VPC对于其他 SharePoint版本是可选的。

    7. IAMro le —选择现有IAM角色或创建新IAM角色来访问您的存储库凭据和索引内容。

      注意

      IAM用于索引的角色不能用于数据源。如果您不确定是否将现有角色用于编制索引或常见问题解答,为了避免出错,请选择创建新角色

    8. 选择下一步

  7. 配置同步设置页面上,请输入以下信息:

    1. 使用更改日志 - 选择更新索引,而不是同步所有文件。

    2. 爬取附件 - 选择此选项可爬取附件。

    3. 使用本地组映射 - 选择此选项可确保正确筛选文档。

    4. 其他配置 - 添加正则表达式模式以包含或排除某些文件。最多可以添加 100 个模式。

    5. 同步运行计划中,对于频率 - Amazon Kendra 与数据来源同步的频率。

    6. 选择下一步

  8. 设置字段映射页面上,请输入以下信息:

    1. Amazon Kendra默认字段映射-从Amazon Kendra生成的默认数据源字段中选择要映射到索引的字段。

    2. 对于自定义字段映射 - 添加自定义数据来源字段以创建要映射到的索引字段名称和字段数据类型。

    3. 选择下一步

  9. 查看和创建页面上,请检查输入的信息是否正确,然后选择添加数据来源。您也可以选择在此页面上编辑信息。成功添加数据来源后,您的数据来源将显示在数据来源页面上。

API

要连接Amazon Kendra到 SharePoint

您必须使用 SharePointConfigurationAPI 指定以下内容:

  • SharePoint版本-指定配置 SharePoint时使用的 SharePoint版本。无论你使用的是 Server 2013、 SharePoint Server 2016、S SharePoint erver 2019 还是 O SharePoint nlin SharePoint e,情况都是如此。

  • 亚马逊秘密资源名称 (ARN)-提供包含您在 SharePoint 账户中创建的身份验证凭证的Secrets Manager密钥的亚马逊资源名称 (ARN)。密钥存储在 JSON 结构中。

    对于SharePoint 在线基本身份验证,以下是您的密钥中必须包含的最低 JSON 结构:

    { "userName": "user name", "password": "password" }

    对于 O SharePoint nline OAuth 2.0 身份验证,以下是您的密钥中必须包含的最低 JSON 结构:

    { "userName": "SharePoint account user name"", "password": "SharePoint account password", "clientId": "SharePoint auto-generated unique client id", "clientSecret": "secret string shared byAmazon Kendraand SharePoint to authorize communications" }

    对于SharePoint 服务器基本身份验证,以下是您的密钥中必须包含的最低 JSON 结构:

    { "userName": "user name", "password": "password", "domain": "server domain name" }

    对于SharePoint 服务器 LDAP 身份验证(如果您需要将访问控制列表 (ACL) 转换为电子邮件格式以便根据用户上下文进行筛选,则可以在密钥中包含 LDAP 服务器 URL 和 LDAP 搜索库),以下是您的密钥中必须包含的最低 JSON 结构:

    { "userName": "user name", "password": "password", "domain": "server domain name" "ldapServerUrl": "ldap://example.com:389", "ldapSearchBase": "dc=example,dc=com" }

    对于SharePoint 服务器手动身份验证,以下是您的密钥中必须包含的最低 JSON 结构:

    { "userName": "user name", "password": "password", "domain": "server domain name", "emailDomainOverride": "example.com" }
  • IAMro le —指定RoleArn何时调用CreateDataSource以向IAM角色提供访问您的Secrets Manager密钥的权限以及调用 SharePoint 连接器 APIs 所需的公众的权限,以及Amazon Kendra。有关更多信息,请参阅 SharePoint S3 数据来源的 IAM 角色

  • Amazon VPC—如果您使用 SharePoint 服务器VpcConfiguration,请在数据源配置中指定。请参阅配置Amazon Kendra以使用 VPC

您还可以添加以下可选功能:

  • Web 代理-是否 URLs 通过 Web 代理连接到您的 SharePoint 站点。此选项只能用于 SharePoint服务器。

  • 索引列表-是否Amazon Kendra应将附件的内容编入 SharePoint 列表项的索引。

  • 更改日志-是否Amazon Kendra应使用 SharePoint 数据源更改日志机制来确定是否必须更新索引中的文档。

    注意

    如果您不想让 Amazon Kendra 扫描所有文档,请使用更改日志。如果您的更改日志很大,则扫描 SharePoint 数据源中的文档所花费的时间可能比处理更改日志所需的时间Amazon Kendra少。如果您是首次将 SharePoint数据源与索引同步,则会扫描所有文档。

  • 包含和排除筛选条件 - 您可以指定是包含还是排除某些内容。

    注意

    大多数数据来源使用正则表达式模式,即称为筛选条件的包含或排除模式。如果您指定包含筛选条件,则只会为与包含筛选条件匹配的内容编制索引。不会为任何与包含筛选条件不匹配的文档编制索引。如果您指定包含和排除筛选条件,则不会为与排除筛选条件匹配的文档编制索引,即使它们与包含筛选条件相匹配。

  • 字段映射 - 选择将 SharePoint 数据来源字段映射到 Amazon Kendra 索引字段。有关更多信息,请参阅映射数据来源字段

    注意

    要搜索您的文档,必须输入文档正文字段或文档正文等效字段。Amazon Kendra您必须将数据来源中的文档正文字段名映射到索引字段名称 _document_body。其他所有字段均为可选字段。

  • 用户上下文筛选和访问控制 – 如果文档有 ACL,则 Amazon Kendra 会爬取文档的访问控制列表(ACL)。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选

了解详情

要了解有关Amazon Kendra与 SharePoint数据源集成的更多信息,请参阅: