本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Confluence 连接器 V2.0
Confluence 是一款协作式工作管理工具,专为共享、存储和处理项目规划、软件开发和产品管理而设计。您可以使用Amazon Kendra索引 Confluence 空间、页面(包括嵌套页面)、博客以及已编入索引的页面和博客的评论和附件。
要对 Amazon Kendra Confluence 数据源连接器进行故障排除,请参阅。数据来源故障排除
支持的功能
Amazon KendraConfluence 数据源连接器支持以下功能:
-
字段映射
-
用户访问控制
-
包含/排除模式
-
完整和增量内容同步
-
虚拟私有云(VPC)
先决条件
在使用Amazon Kendra索引您的 Confluence 数据源之前,请先在您的 Confluence 和账户中进行这些更改。AWS
在 Confluence 中,请确保:
-
已复制 Confluence 实例的 URL。例如:https://example.confluence.com、或https://www.example.confluence.com/、或https://
atlassian.net/。您需要 Confluence 实例 URL 才能连接到 Amazon Kendra。
如果您使用的是 Confluence Cloud,则您的主机网址必须以结尾。atlassian.net/
不支持以下 URL 格式:
-
https://example.confluence.com/xyz
-
https://www.example.confluence.com//wiki/spacekey/xxx
-
https://atlassian.net/xyz
(本地/服务器)Amazon Kendra会检查中AWS Secrets Manager包含的端点信息是否与数据源配置详细信息中指定的端点信息相同。这有助于防止出现混淆代理人问题,这是一个安全问题,即用户无权执行操作,但可以将 Amazon Kendra 作为代理来访问配置的密钥和执行操作。如果以后更改端点信息,则必须创建一个新密钥来同步此信息。
-
配置了包含用户名(用于登录 Confluence 的电子邮件 ID)和密码(以 Confluence API 令牌作为密码)的基本身份验证凭证。请参阅 Manage API tokens for your Atlassian account。
我们建议您定期刷新或轮换您的凭证和密码。为了安全起见,请仅提供必要的访问权限级别。我们建议不要跨数据来源以及连接器版本 1.0 和 2.0(如果适用)重复使用凭证和密钥。
-
可选:已配置包含 Confluence 应用程序密钥、Confluence 应用程序密钥、Confluence 访问令牌和 Confluence 刷新令牌的 OAuth 2.0 证书,允许连接到你的 Confluence 实例。Amazon Kendra如果您的访问令牌过期,则可以使用刷新令牌重新生成访问令牌和刷新令牌对。或者,您可以重复授权过程。有关访问令牌的更多信息,请参阅管理 OAuth 访问令牌。
-
(仅适用于 Confluence Server/Data 中心)可选:在 Confluence 中配置了个人访问令牌 (PAT)。请参阅 Using Personal Access Tokens。
在你的AWS 账户,请确保你有:
-
已创建Amazon Kendra索引,如果使用 API,则记下索引 ID。
-
为您的数据源@@ 创建了一个IAM角色,如果使用 API,请记下该角色的 ARN。IAM
如果您更改了身份验证类型和证书,则必须更新您的IAM角色才能访问正确的AWS Secrets Manager密钥 ID。
-
将您的 Confluence 身份验证凭证存储在 AWS Secrets Manager 密钥中,如果使用 API,请记下密钥的 ARN。
我们建议您定期刷新或轮换您的凭证和密码。为了安全起见,请仅提供必要的访问权限级别。我们建议不要跨数据来源以及连接器版本 1.0 和 2.0(如果适用)重复使用凭证和密钥。
如果您没有现有的IAM角色或密钥,则可以在将 Confluence 数据源连接至时使用控制台创建新的IAM角色和Secrets Manager密钥。Amazon Kendra如果您使用的是 API,则必须提供现有IAM角色和Secrets Manager密钥的 ARN 以及索引 ID。
连接说明
Amazon Kendra要连接到您的 Confluence 数据源,您必须提供 Confluence 数据源的必要详细信息,Amazon Kendra以便访问您的数据。如果您尚未配置 Confluence,请参阅。Amazon Kendra 先决条件
- Console
-
连接到 Con Amazon Kendra fluence
-
登录AWS 管理控制台并打开Amazon Kendra控制台。
-
在左侧导航窗格中,选择索引,然后从索引列表中选择要使用的索引。
您可以选择在索引设置下配置或编辑您的用户访问控制设置。
-
在开始使用页面上,选择添加数据来源。
-
在添加数据来源页面上,选择 Confluence 连接器,然后选择添加连接器。如果使用版本 2(如果适用),请选择带有“V2.0”标签的 Confluence 连接器。
-
在指定数据来源详细信息页面上,输入以下信息:
-
在名称和描述中,在数据来源名称中输入您的数据来源的名称。可以包含连字符,但不能包含空格。
-
(可选)描述:输入数据来源的描述信息。
-
在默认语言中,选择用于筛选文档以编制索引的语言。除非另行指定,否则语言默认为英语。在文档元数据中指定的语言会覆盖所选语言。
-
在标签中,用于添加新标签-包括可选标签以搜索和筛选您的资源或跟踪您的AWS成本。
-
选择下一步。
-
在定义访问权限和安全性页面上,请输入以下信息:
-
在源中,选择 Confluence Cl oud 或 Confluenc e Server/Data Center。
-
Confluence URL - 输入 Confluence 主机 URL。例如 https://example.confluence.com。
-
(仅适用于 Confluence Server/Data 中心)SSL 证书位置-可选- 输入 Confluence Server 的 SSL 证书文件的Amazon S3路径。
-
(仅适用于 Conflu Server/Data ence Center)Web 代理-可选- 输入 Web 代理主机名(不带http://或https://协议)和端口号(主机 URL 传输协议使用的端口)。端口号应为介于 0 到 65535 之间的数值。
-
授权 - 如果您有访问控制列表(ACL)并想将其用于访问控制,请选择是开启还是关闭文档的 ACL 信息。ACL 用于指定用户和组可以访问哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选。
-
身份验证 -选择基本身份验证、Oauth 2.0 身份验证或(仅适用于 Confluence Cent Server/Data er)个人访问令牌身份验证。
-
AWS Secrets Manager 密钥 - 选择现有密钥或创建新的 Secrets Manager 密钥来存储您的 Confluence 身份验证凭证。如果您选择创建新密钥,则会打开 AWS Secrets Manager 密钥窗口。在窗口中输入以下信息:
-
密钥名称 - 密钥的名称。前缀 “AmazonKendra-Confluence-” 会自动添加到您的密钥名称中。
-
如果使用基本身份验证,请输入您在 Confluence 中配置的密钥名称、用户名和密码(以 Confluence API 令牌作为密码)。
如果使用 OAuth2.0 身份验证-输入您在 Confluence 中配置的密钥名称、应用程序密钥、应用程序密钥、访问令牌和刷新令牌。
(仅限 Confluence Server/Data 中心)如果使用个人访问令牌身份验证,请输入您在 Confluence 中配置的密钥名称和 Confluence 令牌。
-
保存并添加您的密钥。
-
虚拟私有云(VPC)- 您可以选择使用 VPC。如果是这样,则必须添加子网和 VPC 安全组。
-
身份爬网程序 – 指定是否激活 Amazon Kendra 的身份爬网程序。身份爬网程序使用文档的访问控制列表(ACL)信息,来根据用户或用户组对文档的访问权限筛选搜索结果。如果您的文档有 ACL 并选择使用您的 ACL,则也可以选择开启身份爬网程序来配置搜索结果Amazon Kendra的用户上下文筛选。否则,如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制并且身份搜寻器已关闭,则可以使用 PutPrincipalMappingAPI 上传用户和群组访问信息以进行用户上下文筛选。
-
IAMro le —选择现有IAM角色或创建新IAM角色来访问您的存储库凭据和索引内容。
IAM用于索引的角色不能用于数据源。如果您不确定是否将现有角色用于编制索引或常见问题解答,为了避免出错,请选择创建新角色。
-
选择下一步。
-
在配置同步设置页面上,请输入以下信息:
-
在同步范围中,对于同步内容 – 选择从以下内容类型进行同步:页面、页面评论、页面附件、博客、博客评论、博客附件、个人空间和存档空间。
只有当您选择同步页面时,才能选择页面评论和页面附件。只有当您选择同步博客时,才能选择博客评论和博客附件。
如果您未在其他配置中指定空间键正则表达式模式,则默认情况下将爬取所有页面和博客。
-
在其他配置中,对于最大文件大小-在中指定Amazon Kendra要爬 MBs 行的文件大小限制。 Amazon Kendra将仅抓取您定义的大小限制内的文件。默认文件大小为 50 MB。最大文件大小应大于 0 MB 且小于或等于 50 MB。
对于空间正则表达式模式 – 使用以下命令指定是在索引中包含还是排除特定空间:
对于实体标题正则表达式模式 - 指定正则表达式模式以按标题包含或排除某些博客、页面、评论和附件。
如果要包含或排除对特定页面或子页面的爬取,则可以使用页面标题正则表达式模式。
-
同步模式 – 选择在数据来源内容发生变化时更新索引的方式。首次将数据来源与 Amazon Kendra 同步时,默认情况下会爬取所有内容并编制索引。如果首次同步失败,即使您没有选择“完整同步”作为同步模式,也必须执行一次完整的数据同步。
-
在同步运行计划的频率中 – 选择同步数据来源内容并更新索引的频率。
-
选择下一步。
-
在设置字段映射页面上,请输入以下信息:
-
从Amazon Kendra生成的默认数据源字段中选择要映射到索引的字段。要添加自定义数据来源字段,请创建要映射到的索引字段名称和字段数据类型。
-
选择下一步。
-
在查看和创建页面上,请检查输入的信息是否正确,然后选择添加数据来源。您也可以选择在此页面上编辑信息。成功添加数据来源后,您的数据来源将显示在数据来源页面上。
- API
-
连接到 Con Amazon Kendra fluence
您必须使用 TemplateConfiguration API 指定数据来源架构的 JSON。您必须提供以下信息:
-
数据来源 – 当使用 TemplateConfiguration JSON 架构时,将数据来源类型指定为 CONFLUENCEV2。当调用 CreateDataSource API 时,还要将数据来源指定为 TEMPLATE。
-
主机 URL - 指定 Confluence 主机 URL 实例。例如 https://example.confluence.com。
-
同步模式 – 指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。首次与同步数据源时,Amazon Kendra默认情况下会对所有内容进行抓取和索引。如果首次同步失败,即使您没有选择“完整同步”作为同步模式,也必须执行一次完整的数据同步。您可以选择:
-
身份验证类型 - 指定身份验证的类型是 Basic、OAuth2 还是(仅限 Confluence Server)Personal-token。
-
(可选,仅限 Confluence Server)SSL 证书位置 - 指定用于存储 SSL 证书的 S3bucketName 和 s3certificateName。
-
亚马逊秘密资源名称 (ARN)-提供包含您在 Confluence 中配置的身份验证凭证的Secrets Manager密钥的亚马逊资源名称 (ARN)。如果您使用基本身份验证,密钥将存储在 JSON 结构中,其中包含以下键:
{
"username": "email ID or user name",
"password": "Confluence API token"
}
如果您使用 OAuth 2.0 身份验证,则密钥将存储在 JSON 结构中,其中包含以下密钥:
{
"confluenceAppKey": "app key",
"confluenceAppSecret": "app secret",
"confluenceAccessToken": "access token",
"confluenceRefreshToken": "refresh token"
}
(仅限 Confluence Server)如果您使用基本身份验证,密钥将存储在 JSON 结构中,其中包含以下键:
{
"hostUrl": "Confluence Server host URL",
"username": "Confluence Server user name",
"password": "Confluence Server password"
}
(仅限 Confluence Server)如果您使用个人访问令牌身份验证,密钥将存储在 JSON 结构中,其中包含以下键:
{
"hostUrl": "Confluence Server host URL",
"patToken": "personal access token"
}
-
IAM角色 —指定RoleArn何时调用CreateDataSource以向IAM角色提供访问您的Secrets Manager密钥的权限以及致电 Confluence 连接器 APIs 所需的公众的权限,以及。Amazon Kendra有关更多信息,请参阅 Confluence 数据来源的 IAM 角色。
您还可以添加以下可选功能:
-
虚拟私有云(VPC)- 指定 VpcConfiguration,以便调用 CreateDataSource。有关更多信息,请参阅 配置Amazon Kendra为使用 Amazon VPC。
-
文件大小 – 指定要爬取的最大文件大小。
-
文档/内容类型 - 指定是否爬取页面、页面评论、页面附件、博客、博客评论、博客附件、空间和存档空间。
-
包含和排除筛选条件 - 指定是包含还是排除某些空间、页面、博客及其评论和附件。
大多数数据来源使用正则表达式模式,即称为筛选条件的包含或排除模式。如果您指定包含筛选条件,则只会为与包含筛选条件匹配的内容编制索引。不会为任何与包含筛选条件不匹配的文档编制索引。如果您指定包含和排除筛选条件,则不会为与排除筛选条件匹配的文档编制索引,即使它们与包含筛选条件相匹配。
-
Web 代理 - 如果您想通过 Web 代理连接到您的 Confluence URL 实例,请指定您的 Web 代理信息。您可以将此选项用于 Confluence Server。
-
访问控制列表(ACL)- 如果您有 ACL 并想将其用于访问控制,请选择是否爬取文档的 ACL 信息。ACL 用于指定用户和组可以访问哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选。
-
身份爬网程序 – 指定是否激活 Amazon Kendra 的身份爬网程序。身份爬网程序使用文档的访问控制列表(ACL)信息,来根据用户或用户组对文档的访问权限筛选搜索结果。如果您的文档有 ACL 并选择使用您的 ACL,则也可以选择开启身份爬网程序来配置搜索结果Amazon Kendra的用户上下文筛选。否则,如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制并且身份搜寻器已关闭,则可以使用 PutPrincipalMappingAPI 上传用户和群组访问信息以进行用户上下文筛选。
-
字段映射 - 选择将 Confluence 数据来源字段映射到 Amazon Kendra 索引字段。有关更多信息,请参阅映射数据来源字段。
要搜索您的文档,必须输入文档正文字段或文档正文等效字段。Amazon Kendra您必须将数据来源中的文档正文字段名映射到索引字段名称 _document_body。其他所有字段均为可选字段。
有关要配置的其他重要 JSON 键的列表,请参阅 Confluence 模板架构。
注意