本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon FSx(视窗)
Amazon FSx(Windows) 是一个完全托管的、基于云的文件服务器系统,提供共享存储功能。如果你是 Amazon FSx (Windows) 用户,则可以使用Amazon Kendra索引你的 Amazon FSx (Windows) 数据源。
Amazon Kendra现在支持升级版 Amazon FSx (Windows) 连接器。
已为您自动完成控制台升级。您在控制台中新建的所有连接器都将使用升级后的架构。现在,如果您使用 API,则必须使用 TemplateConfiguration 对象而不是 FSxConfiguration 对象来配置您的连接器。
使用旧版控制台和 API 架构配置的连接器仍可照常运行,但您将无法编辑或更新它们。如果要编辑或更新连接器配置,必须新建一个连接器。
我们建议您将连接器工作流程迁移至升级后的版本。使用旧版架构配置的连接器的支持预计将在 2024 年 6 月前终止。
您可以使用Amazon Kendra控制台或 TemplateConfigurationAPI Amazon Kendra 连接到您的 Amazon FSx (Windows) 数据源。
要对您的 Amazon Kendra Amazon FSx (Windows) 数据源连接器进行故障排除,请参阅数据来源故障排除。
支持的功能
Amazon KendraAmazon FSx(Windows) 数据源连接器支持以下功能:
-
字段映射
-
用户访问控制
-
用户身份爬取
-
包含和排除筛选条件
-
完整和增量内容同步
-
虚拟私有云(VPC)
先决条件
在使用Amazon Kendra索引 Amazon FSx (Windows) 数据源之前,请先检查您的 Amazon FSx (Windows) 和的详细信息AWS 账户。
对于 Amazon FSx (Windows),请确保你有:
-
使用读取和装载权限进行设置 Amazon FSx (Windows)。
-
已记下您的文件系统 ID。您可以在 Amazon FSx (Windows) 控制台的 “文件系统” 仪表板上找到您的文件系统 ID。
-
使用您的 Amazon FSx (Windows) 文件系统所在Amazon VPC位置配置虚拟私有云。
-
记下了你的 Amazon FSx (Windows) Active
Directory 用户帐户身份验证凭证。这包括您的 Active Directory 用户名、DNS 域名(例如,user@corp.example.com)和密码。
仅使用连接器运行所需的必要凭证。请勿使用诸如域管理员之类的特权凭证。
我们建议您定期刷新或轮换您的凭证和密码。为了安全起见,请仅提供必要的访问权限级别。我们建议不要跨数据来源以及连接器版本 1.0 和 2.0(如果适用)重复使用凭证和密钥。
-
已选中每个文档在 Amazon FSx (Windows) 中以及计划用于同一索引的其他数据源中都是唯一的。您要用于编制索引的每个数据来源在所有数据来源中都不能包含相同的文档。文档对索引来说 IDs 是全局的,并且每个索引必须是唯一的。
在你的AWS 账户,请确保你有:
-
已创建Amazon Kendra索引,如果使用 API,则记下索引 ID。
-
为您的数据源@@ 创建了一个IAM角色,如果使用 API,请记下该角色的 ARN。IAM
如果您更改了身份验证类型和证书,则必须更新您的IAM角色才能访问正确的AWS Secrets Manager密钥 ID。
-
将你的 Amazon FSx (Windows) 身份验证凭证存储在AWS Secrets Manager密钥中,如果使用 API,则记下该密钥的 ARN。
我们建议您定期刷新或轮换您的凭证和密码。为了安全起见,请仅提供必要的访问权限级别。我们建议不要跨数据来源以及连接器版本 1.0 和 2.0(如果适用)重复使用凭证和密钥。
如果您没有现有的IAM角色或密钥,则可以在将 Amazon FSx (Windows) 数据源连接到时使用控制台创建新的IAM角色和Secrets Manager密钥Amazon Kendra。如果您使用的是 API,则必须提供现有IAM角色和Secrets Manager密钥的 ARN 以及索引 ID。
连接说明
要Amazon Kendra连接到您的 Amazon FSx (Windows) 数据源,必须提供您的 Amazon FSx (Windows) 数据源的必要详细信息,Amazon Kendra以便访问您的数据。如果您尚未配置 Amazon FSx (Windows)Amazon Kendra,请参阅先决条件。
- Console
-
Amazon Kendra连接到你的 Amazon FSx (Windows) 文件系统
-
登录AWS 管理控制台并打开Amazon Kendra控制台。
-
在左侧导航窗格中,选择索引,然后从索引列表中选择要使用的索引。
您可以选择在索引设置下配置或编辑您的用户访问控制设置。
-
在开始使用页面上,选择添加数据来源。
-
在添加数据来源页面上,选择 Amazon FSx(Windows)连接器,然后选择添加连接器。如果使用版本 2(如果适用),请选择带有“V2.0”标签的 Amazon FSx(Windows)连接器。
-
在指定数据来源详细信息页面上,输入以下信息:
-
在名称和描述中,在数据来源名称中输入您的数据来源的名称。可以包含连字符,但不能包含空格。
-
(可选)描述:输入数据来源的描述信息。
-
在默认语言中,选择用于筛选文档以编制索引的语言。除非另行指定,否则语言默认为英语。在文档元数据中指定的语言会覆盖所选语言。
-
在标签中,用于添加新标签-包括可选标签以搜索和筛选您的资源或跟踪您的AWS成本。
-
选择下一步。
-
在定义访问权限和安全性页面上,请输入以下信息:
-
Amazon FSx(Windows) 文件系统 ID-从下拉列表中选择从 Amazon FSx (Windows) 获取的现有文件系统 ID。或者,创建一个 Amazon FSx(Windows)文件系统。您可以在 Amazon FSx (Windows) 控制台的 “文件系统” 仪表板上找到您的文件系统 ID。
-
授权 - 如果您有访问控制列表(ACL)并想将其用于访问控制,请选择是开启还是关闭文档的 ACL 信息。ACL 用于指定用户和组可以访问哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选。
-
身份验证-选择现有AWS Secrets Manager密钥,或创建新密钥来存储您的文件系统凭据。如果您选择创建新密钥,则会打开 AWS Secrets Manager 密钥窗口。
提供存储身份验证凭证(用户名和密码)的密钥。用户名必须包含您的 DNS 域名。例如,user@corp.example.com。
保存并添加您的密钥。
-
虚拟私有云 (VPC) — 你必须选择Amazon VPC你的 (Windows) Amazon FSx 所在的位置。您可以包含 VPC 子网和安全组。请参阅配置Amazon VPC。
-
IAM角色-选择现有IAM角色或创建新IAM角色来访问您的存储库凭据和索引内容。
IAM用于索引的角色不能用于数据源。如果您不确定是否将现有角色用于编制索引或常见问题解答,为了避免出错,请选择创建新角色。
-
选择下一步。
-
在配置同步设置页面上,请输入以下信息:
-
同步范围、正则表达式模式 - 添加包含或排除某些文件的正则表达式模式。
-
同步模式 – 选择在数据来源内容发生变化时更新索引的方式。首次与同步数据源时,Amazon Kendra默认情况下会对所有内容进行抓取和索引。如果首次同步失败,即使您没有选择“完整同步”作为同步模式,也必须执行一次完整的数据同步。
-
同步运行计划 – 对于频率,选择同步数据来源内容并更新索引的频率。
-
选择下一步。
-
在设置字段映射页面上,请输入以下信息:
-
从Amazon Kendra生成的文件默认字段中选择要映射到索引的字段。要添加自定义数据来源字段,请创建要映射到的索引字段名称和字段数据类型。
-
选择下一步。
-
在查看和创建页面上,请检查输入的信息是否正确,然后选择添加数据来源。您也可以选择在此页面上编辑信息。成功添加数据来源后,您的数据来源将显示在数据来源页面上。
- API
-
Amazon Kendra连接到你的 Amazon FSx (Windows) 文件系统
您必须使用 TemplateConfiguration API 指定数据来源架构的 JSON。您必须提供以下信息:
-
数据来源 – 当使用 TemplateConfiguration JSON 架构时,将数据来源类型指定为 FSX。当调用 CreateDataSource API 时,还要将数据来源指定为 TEMPLATE。
-
文件系统 ID-Amazon FSx (Windows) 文件系统的标识符。您可以在 Amazon FSx(Windows)控制台的文件系统控制面板上找到文件系统 ID。
-
文件系统类型 - 将文件系统的类型指定为 WINDOWS。
-
虚拟私有云(VPC)- 指定 VpcConfiguration,以便调用 CreateDataSource。有关更多信息,请参阅 配置Amazon Kendra为使用 Amazon VPC。
你必须选择你的 Amazon FSx (Windows) 所在的位置。Amazon VPC您可以包含 VPC 子网和安全组。
-
同步模式-指定数据源内容发生变化时Amazon Kendra应如何更新索引。首次将数据来源与 Amazon Kendra 同步时,默认情况下会爬取所有内容并编制索引。如果首次同步失败,即使您没有选择“完整同步”作为同步模式,也必须执行一次完整的数据同步。您可以选择:
-
身份爬网程序 - 指定是否激活 Amazon Kendra 的身份爬网程序。身份爬网程序使用文档的访问控制列表(ACL)信息,来根据用户或用户组对文档的访问权限筛选搜索结果。如果您的文档有 ACL 并选择使用您的 ACL,则也可以选择开启身份爬网程序来配置搜索结果Amazon Kendra的用户上下文筛选。否则,如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制并且身份搜寻器已关闭,则可以使用 PutPrincipalMappingAPI 上传用户和群组访问信息以进行用户上下文筛选。
-
亚马逊秘密资源名称 (ARN)-提供包含您 Amazon FSx (Windows) 账户身份验证凭证的Secrets Manager密钥的亚马逊资源名称 (ARN)。密钥必须使用具有以下键的 JSON 结构存储:
{
"username": "user@corp.example.com",
"password": "password"
}
-
IAMro le —指定RoleArn何时调用CreateDataSource以向IAM角色提供访问您的Secrets Manager密钥的权限以及调用 Amazon FSx (Windows) 连接器 APIs 所需的公众的权限,以及Amazon Kendra。有关更多信息,请参阅 Amazon FSx(Windows) 数据源的IAM角色。
您还可以添加以下可选功能:
-
包含和排除筛选条件 - 指定是包含还是排除文件。
大多数数据来源使用正则表达式模式,即称为筛选条件的包含或排除模式。如果您指定包含筛选条件,则只会为与包含筛选条件匹配的内容编制索引。不会为任何与包含筛选条件不匹配的文档编制索引。如果您指定包含和排除筛选条件,则不会为与排除筛选条件匹配的文档编制索引,即使它们与包含筛选条件相匹配。
-
访问控制列表(ACL)- 如果您有 ACL 并想将其用于访问控制,请选择是否爬取文档的 ACL 信息。ACL 用于指定用户和组可以访问哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选。
要对用户测试用户上下文筛选,在发出查询时,必须将 DNS 域名作为用户名的一部分包含在内。您必须拥有 Active Directory 域的管理权限。您也可以根据组名称测试用户上下文筛选。
-
字段映射-选择将您的 Amazon FSx (Windows) 数据源字段映射到Amazon Kendra索引字段。有关更多信息,请参阅映射数据来源字段。
要搜索您的文档,必须输入文档正文字段或文档正文等效字段。Amazon Kendra您必须将数据来源中的文档正文字段名映射到索引字段名称 _document_body。其他所有字段均为可选字段。
有关要配置的其他重要 JSON 键的列表,请参阅 Amazon FSx(Windows)模板架构。
了解详情
要了解有关Amazon Kendra与你的 Amazon FSx (Windows) 数据源集成的更多信息,请参阅: