Confluence 連接器 V2.0 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Confluence 連接器 V2.0

Confluence 是一種協作工作管理工具,旨在共用、儲存和處理專案規劃、軟體開發和產品管理。您可以使用 Amazon Kendra將 Confluence 空間、頁面 (包括巢狀頁面)、部落格以及評論和附件編入索引頁面和部落格的索引。

如需 Confluence Amazon Kendra資料來源連接器的故障診斷,請參閱 對資料來源進行故障診斷

支援的功能

Amazon KendraConfluence 資料來源連接器支援下列功能:

  • 欄位對應

  • 使用者存取控制

  • 包含/排除模式

  • 完整和增量內容同步

  • 虛擬私有雲端 (VPC)

先決條件

在您可以使用 Amazon Kendra為 Confluence 資料來源編製索引之前,請在 Confluence 和AWS帳戶中進行這些變更。

在 Confluence 中,請確定您有:

  • 已複製您的 Confluence 執行個體 URL。例如:https://example.confluence.com:// 或 atlassian.net/https://www.example.confluence.com/。您需要 Confluence 執行個體 URL 才能連線Amazon Kendra。

    如果您使用的是 Confluence Cloud,您的主機 URL 必須以 atlassian.net/ 結尾。

    注意

    不支援下列 URL 格式:

    • https://example.confluence.com/xyz

    • https://www.example.confluence.com//wiki/spacekey/xxx

    • https://atlassian.net/xyz

    注意

    (內部部署/伺服器) 會Amazon Kendra檢查 中包含的端點資訊是否AWS Secrets Manager與資料來源組態詳細資訊中指定的端點資訊相同。這有助於防止混淆代理人問題,這是一個安全問題,其中使用者沒有執行動作的許可,但使用 Amazon Kendra做為代理來存取設定的秘密並執行動作。如果您稍後變更端點資訊,則必須建立新的秘密才能同步此資訊。

  • 設定的基本身分驗證登入資料,其中包含使用者名稱 (用於登入 Confluence 的電子郵件 ID) 和密碼 (Confluence API 字符作為密碼)。請參閱管理 Atlassian 帳戶的 API 權杖

    注意

    建議定期更新或輪換憑證與機密。僅授予作業所需的最低存取層級,以確保自身安全。我們不建議您在資料來源和連接器 1.0 和 2.0 版 (如適用) 之間重複使用登入資料和秘密。

  • 選用:已設定的 OAuth 2.0 登入資料,其中包含 Confluence 應用程式金鑰、Confluence 應用程式秘密、Confluence 存取字符和 Confluence 重新整理字符,Amazon Kendra以允許 連接到您的 Confluence 執行個體。如果您的存取權杖過期,您可以使用重新整理權杖來重新產生存取權杖和重新整理權杖對。或者,您可以重複授權程序。如需存取字符的詳細資訊,請參閱管理 OAuth 存取字符

  • (僅適用於 Confluence Server/Data Center) 選用:在 Confluence 中設定個人存取字符 (PAT)。請參閱使用個人存取字符

在您的 中AWS 帳戶,請確定您有:

  • 建立Amazon Kendra索引,如果使用 API, 會記下索引 ID。

  • 為您的資料來源建立 IAM角色,如果使用 API, 會記下IAM角色的 ARN。

    注意

    如果您變更身分驗證類型和登入資料,則必須更新您的IAM角色以存取正確的AWS Secrets Manager秘密 ID。

  • 將您的 Confluence 身分驗證憑證存放在AWS Secrets Manager秘密中,如果使用 API, 會記下秘密的 ARN。

    注意

    建議定期更新或輪換憑證與機密。僅授予作業所需的最低存取層級,以確保自身安全。我們不建議您在資料來源和連接器版本 1.0 和 2.0 (如適用) 之間重複使用登入資料和秘密。

如果您沒有現有的IAM角色或秘密,您可以在連接 Confluence 資料來源時,使用 主控台建立新的IAM角色和Secrets Manager秘密Amazon Kendra。如果您使用 API,則必須提供現有IAM角色和Secrets Manager秘密的 ARN,以及索引 ID。

連線指示

若要Amazon Kendra連線至 Confluence 資料來源,您必須提供 Confluence 資料來源的必要詳細資訊,以便 Amazon Kendra可以存取您的資料。如果您尚未為 設定 Confluence,Amazon Kendra請參閱 先決條件

Console

Amazon Kendra連線至 Confluence

  1. 登入 AWS 管理主控台並開啟 Amazon Kendra主控台

  2. 從左側導覽窗格中,選擇索引,然後從索引清單中選擇您要使用的索引。

    注意

    您可以選擇在索引設定下設定或編輯使用者存取控制設定。

  3. 入門頁面上,選擇新增資料來源

  4. 新增資料來源頁面上,選擇 Confluence 連接器,然後選擇新增連接器。如果使用版本 2 (如適用),請選擇具有 "V2.0" 標籤的 Confluence 連接器

  5. 指定資料來源詳細資訊頁面上,輸入下列資訊:

    1. 名稱和描述中,針對資料來源名稱 - 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。

    2. (選用) 描述 — 輸入資料來源的選用描述。

    3. 預設語言 - 選擇語言來篩選索引的文件。除非您另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

    4. 標籤中,針對新增標籤 - 包含選用標籤,以搜尋和篩選您的資源或追蹤您的AWS成本。

    5. 選擇下一步

  6. 定義存取和安全性頁面上,輸入下列資訊:

    1. 來源中,選擇 Confluence CloudConfluence Server/Data Center

    2. Confluence URL - 輸入 Confluence 主機 URL。例如:https://example.confluence.com

    3. (僅適用於 Confluence Server/Data Center) SSL 憑證位置 - 選用 - 輸入 Confluence Server SSL 憑證檔案的Amazon S3路徑。

    4. (僅適用於 Confluence Server/Data Center) Web 代理 - 選用 - 輸入 Web 代理主機名稱 (不含 http://https://通訊協定) 和連接埠號碼 (主機 URL 傳輸通訊協定使用的連接埠)。連接埠號碼應為 0 至 65535 的數值。

    5. 授權:如果您有 ACL 並想要將其用於存取控制,請開啟或關閉文件的存取控制清單 (ACL) 資訊。ACL 指定使用者可以和群組存取哪些文件。ACL 資訊用於根據使用者或其群組對文件的存取來篩選搜尋結果。如需詳細資訊,請參閱使用者內容篩選

    6. 身分驗證 - 選擇基本身分驗證Oauth 2.0 身分驗證或 (僅限 Confluence Server/Data Center) 個人存取字符身分驗證

    7. AWS Secrets Managersecret - 選擇現有的秘密或建立新的Secrets Manager秘密來存放您的 Confluence 身分驗證憑證。如果您選擇建立新的秘密,則會AWS開啟Secrets Manager秘密視窗。在視窗中輸入以下資訊:

      1. 機密名稱 - 輸入您的機密名稱。字首「AmazonKendra-Confluence-」會自動新增至您的秘密名稱。

      2. 如果使用基本身分驗證 - 輸入您在 Confluence 中設定的秘密名稱、使用者名稱和密碼 (Confluence API 字符作為密碼)。

        如果使用 OAuth2.0 身分驗證 - 輸入您在 Confluence 中設定的秘密名稱、應用程式金鑰、應用程式秘密、存取字符和重新整理字符。

        (僅限 Confluence Server/Data Center) 如果使用個人存取字符身分驗證 - 輸入您在 Confluence 中設定的秘密名稱和 Confluence 字符。

      3. 儲存並新增您的秘密。

    8. Virtual Private Cloud (VPC) — 您可以選擇使用 VPC。若是如此,您必須新增子網路VPC 安全群組

    9. 身分爬蟲程式 - 指定是否開啟 Amazon Kendra的身分爬蟲程式。身分爬蟲程式會使用文件的存取控制清單 (ACL) 資訊,根據使用者或其群組對文件的存取來篩選搜尋結果。如果您有文件的 ACL 並選擇使用 ACL,您也可以選擇開啟Amazon Kendra身分爬蟲程式,以設定搜尋結果的使用者內容篩選。否則,如果關閉身分識別編目程式,則所有文件都可公開搜尋。如果您想要使用文件的存取控制,而身分識別編目程式為關閉狀態,您可以改用 PutPrincipalMapping API 來上傳使用者和群組存取資訊,以供使用者內容篩選使用。

    10. IAMrole - 選擇現有IAM角色或建立新的IAM角色,以存取您的儲存庫登入資料和索引內容。

      注意

      IAM用於索引的 角色無法用於資料來源。如果您不確定現有角色是否用於索引或常見問答集,請選擇建立新角色以避免錯誤。

    11. 選擇下一步

  7. 設定同步設定頁面上,輸入下列資訊:

    1. 同步範圍中,同步內容 - 從下列內容類型中選擇同步:頁面、頁面評論、頁面附件、部落格、部落格評論、部落格附件、個人空間和封存空間。

      注意

      只有在您選擇同步頁面時,才能選取頁面註解和頁面附件。只有在您選擇同步部落格時,才能選取部落格評論和部落格附件。

      重要

      如果您未在其他組態中指定空間鍵規則運算式模式,則預設會爬取所有頁面和部落格。

    2. 在其他組態中,針對檔案大小上限 - 指定Amazon Kendra將編目的檔案大小限制,以 MBs為單位。 只會編Amazon Kendra目您定義的大小限制內的檔案。預設檔案大小為 50MB。檔案大小上限應大於 0 MB 且小於或等於 50 MB。

      對於 Spaces regex 模式 — 指定是否使用下列方式在索引中包含或排除特定空格:

      • 空格鍵 (例如 my-space-123)

        注意

        如果您未指定空格鍵規則運算式模式,預設會爬取所有頁面和部落格。

      • URL (例如,.*/MySite/MyDocuments/)

      • 檔案類型 (例如 .*\.pdf、.*\.txt)

      對於實體標題規則運算式模式 - 指定規則表達式模式,依標題包含或排除特定部落格、頁面、註解和附件。

      注意

      如果您想要包含或排除抓取特定頁面或子頁面,您可以使用頁面標題規則運算式模式。

    3. 同步模式 - 選擇您希望在資料來源內容變更時更新索引的方式。當您第一次使用 Amazon Kendra同步資料來源時,預設會爬取所有內容並編製索引。如果初始同步失敗,即使您未選擇完全同步做為同步模式選項,仍必須執行資料的完整同步。

      • 完全同步:新編製所有內容的索引,每次資料來源與索引同步時取代現有的內容。

      • 新的、已修改、已刪除的同步:每次資料來源與您的索引同步時,僅索引新的、已修改和已刪除的內容。 Amazon Kendra可以使用資料來源的機制來追蹤自上次同步以來變更的內容和索引內容。

    4. 同步執行排程中,針對頻率 - 選擇同步資料來源內容和更新索引的頻率。

    5. 選擇下一步

  8. 設定欄位映射頁面上,輸入下列資訊:

    1. 從產生Amazon Kendra的預設資料來源欄位中選取您要映射到索引。若要新增自訂資料來源欄位,請建立要映射的索引欄位名稱和欄位資料類型。

    2. 選擇下一步

  9. 檢閱和建立頁面上,檢查您輸入的資訊是否正確,然後選取新增資料來源。您也可以選擇從此頁面編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在資料來源頁面上。

API

Amazon Kendra連線至 Confluence

您必須使用 TemplateConfiguration API 指定資料來源結構描述的 JSON。您必須提供下列資訊:

  • 資料來源 - 當您使用 TemplateConfiguration JSON 結構描述CONFLUENCEV2時,指定資料來源類型。另請在呼叫 CreateDataSource API TEMPLATE時將資料來源指定為 。

  • 主機 URL - 指定 Confluence 主機 URL 執行個體。例如:https://example.confluence.com

  • 同步模式 - 指定 如何在Amazon Kendra資料來源內容變更時更新索引。當您Amazon Kendra第一次使用 同步資料來源時,預設會爬取所有內容並編製索引。如果初始同步失敗,即使您未選擇完全同步做為同步模式選項,仍必須執行資料的完整同步。您可以選擇:

    • FORCED_FULL_CRAWL 以新編製所有內容的索引,每次資料來源與索引同步時都會取代現有的內容。

    • FULL_CRAWL 每次資料來源與索引同步時, 只會編製新內容、修改內容和已刪除內容的索引。 Amazon Kendra可以使用資料來源的機制來追蹤自上次同步以來變更的內容變更和索引內容。

  • 身分驗證類型 - 指定身分驗證的類型,無論是 BasicOAuth2、 (僅限 Confluence Server)Personal-token

  • (選用 – 僅適用於 Confluence Server) SSL 憑證位置 - 特定 S3bucketNames3certificateName您用來存放 SSL 憑證的 。

  • Secret Amazon Resource Name (ARN)—提供Secrets Manager秘密的 Amazon Resource Name (ARN),其中包含您在 Confluence 中設定的身分驗證憑證。如果您使用基本身分驗證,秘密會存放在具有下列金鑰的 JSON 結構中:

    { "username": "email ID or user name", "password": "Confluence API token" }

    如果您使用 OAuth 2.0 身分驗證,秘密會存放在具有下列金鑰的 JSON 結構中:

    { "confluenceAppKey": "app key", "confluenceAppSecret": "app secret", "confluenceAccessToken": "access token", "confluenceRefreshToken": "refresh token" }

    (僅適用於 Confluence Server) 如果您使用基本身分驗證,秘密會存放在具有下列金鑰的 JSON 結構中:

    { "hostUrl": "Confluence Server host URL", "username": "Confluence Server user name", "password": "Confluence Server password" }

    (僅適用於 Confluence Server) 如果您使用個人存取字符身分驗證,秘密會存放在具有下列金鑰的 JSON 結構中:

    { "hostUrl": "Confluence Server host URL", "patToken": "personal access token" }
  • IAMrole—指定RoleArn您何時呼叫 CreateDataSource 以提供IAM角色存取Secrets Manager秘密的許可,以及呼叫 Confluence 連接器所需的公有 APIs 和 Amazon Kendra。如需詳細資訊,請參閱 IAMConfluence 資料來源的角色

您也可以新增下列選用功能:

  • Virtual Private Cloud (VPC) — 指定VpcConfiguration何時呼叫 CreateDataSource。如需詳細資訊,請參閱設定 Amazon Kendra以使用Amazon VPC

  • 檔案大小 - 指定要抓取的檔案大小上限。

  • 文件/內容類型 - 指定是否要編目頁面、頁面註解、頁面附件、部落格、部落格註解、部落格附件、空格和封存空格。

  • 包含和排除篩選條件 - 指定是否包含或排除特定空格、頁面、部落格及其註解和附件。

    注意

    大多數資料來源使用規則表達式模式,作為包含或排除的篩選規則,稱為篩選條件。若您設定包含篩選條件,則只有符合該條件的內容會被編列索引。任何不符合包含篩選條件的文件都不會編製索引。如果您指定包含和排除篩選條件,則符合排除篩選條件的文件不會編製索引,即使它們符合包含篩選條件。

  • Web 代理 — 如果您想要透過 Web 代理連線到 Confluence URL 執行個體,請指定您的 Web 代理資訊。您可以使用 Confluence Server 的此選項。

  • 存取控制清單 (ACL) — 如果您有 ACL 並想要將其用於存取控制,請指定是否要為文件編目 ACL 資訊。ACL 指定使用者可以和群組存取哪些文件。ACL 資訊用於根據使用者或其群組對文件的存取來篩選搜尋結果。如需詳細資訊,請參閱使用者內容篩選

  • 身分爬蟲程式 - 指定是否開啟 Amazon Kendra的身分爬蟲程式。身分爬蟲程式會使用文件的存取控制清單 (ACL) 資訊,根據使用者或其群組對文件的存取來篩選搜尋結果。如果您有文件的 ACL 並選擇使用您的 ACL,您也可以選擇開啟Amazon Kendra身分爬蟲程式,以設定搜尋結果的使用者內容篩選。否則,如果關閉身分識別編目程式,則所有文件都可公開搜尋。如果您想要使用文件的存取控制,而身分識別編目程式為關閉狀態,您可以改用 PutPrincipalMapping API 來上傳使用者和群組存取資訊,以供使用者內容篩選使用。

  • 欄位映射 - 選擇將您的 Confluence 資料來源欄位映射至您的Amazon Kendra索引欄位。如需詳細資訊,請參閱映射資料來源欄位

    注意

    需要文件內文欄位或文件內文對等項目, Amazon Kendra才能搜尋您的文件。您必須將資料來源中的文件內文欄位名稱映射至索引欄位名稱 _document_body。所有其他欄位是選用的。

如需要設定的其他重要 JSON 金鑰清單,請參閱 Confluence 範本結構描述

備註

  • 個人存取字符 (PAT) 不適用於 Confluence Cloud。