本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon S3
Amazon S3是一種物件儲存服務,可將資料儲存為儲存貯體中的物件。您可以使用 Amazon Kendra為文件的Amazon S3儲存貯體儲存庫編製索引。
Amazon Kendra不會使用將許可授予Amazon Kendra委託人與 S3 儲存貯體互動的儲存貯體政策。而是使用 IAM角色。請確定 Amazon Kendra不包含在您的儲存貯體政策中做為信任的成員,以避免意外授予許可給任意委託人時發生任何資料安全問題。不過,您可以新增儲存貯體政策,以跨不同帳戶使用 儲存Amazon S3貯體。如需詳細資訊,請參閱Amazon S3跨帳戶使用的政策 (在 S3IAM 角色索引標籤中,IAM資料來源的角色下)。如需 S3 資料來源IAM角色的相關資訊,請參閱 IAM角色。
Amazon Kendra現在支援升級的Amazon S3連接器。
主控台已為您自動升級。您在主控台中建立的任何新連接器都將使用升級的架構。如果您使用 API,您現在必須使用 TemplateConfiguration 物件,而不是 S3DataSourceConfiguration 物件來設定連接器。
使用舊版主控台和 API 架構設定的連接器將繼續按設定運作。不過,您將無法編輯或更新它們。如果您想要編輯或更新連接器組態,則必須建立新的連接器。
建議您將連接器工作流程遷移至升級版本。使用較舊架構設定的連接器支援預計在 2024 年 6 月結束。
您可以使用 Amazon Kendra主控台或 TemplateConfiguration API 連線到Amazon S3資料來源。
如需對 Amazon KendraS3 資料來源連接器進行故障診斷,請參閱 對資料來源進行故障診斷。
支援的功能
-
欄位對應
-
使用者存取控制
-
包含/排除篩選條件
-
完整和增量內容同步
-
虛擬私有雲端 (VPC)
先決條件
在您可以使用 Amazon Kendra為 S3 資料來源編製索引之前,請在 S3 和帳戶中進行這些變更AWS。
在 S3 中,請確定您有:
在您的帳戶中AWS,請確定您有:
如果您沒有現有IAM角色,則可以在將 S3 資料來源連接到 時使用 主控台來建立新的IAM角色Amazon Kendra。如果您使用 API,則必須提供現有IAM角色的 ARN 和索引 ID。
連線指示
若要Amazon Kendra連線至 S3 資料來源,您必須提供 S3 資料來源的必要詳細資訊,以便 Amazon Kendra可以存取您的資料。如果您尚未為 設定 S3Amazon Kendra,請參閱 先決條件。
- Console
-
Amazon Kendra連線至Amazon S3
-
登入 AWS 管理主控台並開啟 Amazon Kendra主控台。
-
從左側導覽窗格中,選擇索引,然後從索引清單中選擇您要使用的索引。
您可以選擇在索引設定下設定或編輯使用者存取控制設定。
-
在入門頁面上,選擇新增資料來源。
-
在新增資料來源頁面上,選擇 S3 連接器,然後選擇新增連接器。如果使用第 2 版 (如適用),請選擇具有「V2.0」標籤的 S3 連接器。
-
在指定資料來源詳細資訊頁面上,輸入下列資訊:
-
在名稱和描述中,針對資料來源名稱 - 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。
-
(選用) 描述 — 輸入資料來源的選用描述。
-
在預設語言 - 選擇語言來篩選索引的文件。除非您另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。
-
在標籤中,針對新增標籤 - 包含選用標籤,以搜尋和篩選您的資源或追蹤您的AWS成本。
-
選擇下一步。
-
在定義存取和安全性頁面上,輸入下列選用資訊:
-
IAMrole - 選擇現有IAM角色或建立新的IAM角色,以存取您的儲存庫登入資料和索引內容。
IAM用於索引的 角色無法用於資料來源。如果您不確定現有角色是否用於索引或常見問答集,請選擇建立新角色以避免錯誤。
-
Virtual Private Cloud (VPC) — 您可以選擇使用 VPC。若是如此,您必須新增子網路和 VPC 安全群組。
-
選擇下一步。
-
在設定同步設定頁面上,輸入下列資訊:
-
對於資料來源位置 - 指定儲存資料之儲存Amazon S3貯體的路徑。選取瀏覽 S3 以選擇您的 S3 儲存貯體。
-
針對檔案大小上限 - 指定限制,以 MB 為單位,僅限於低於此限制的爬蟲檔案。Amazon Kendra允許的檔案大小上限為 50 MB。
-
對於 (選用) 中繼資料檔案字首資料夾位置—指定儲存欄位/屬性和其他文件中繼資料的資料夾路徑。選取瀏覽 S3,找到您的中繼資料資料夾。
-
對於 (選用) 存取控制清單組態檔案位置—指定檔案的路徑,其中包含使用者的 JSON 結構及其對文件的存取。選取瀏覽 S3,找到您的 ACL 檔案。
-
(選用) 選取解密金鑰 - 選取以使用解密金鑰。您可以選擇使用現有的AWS KMS金鑰。
-
對於 (選用) 其他組態 — 新增模式以包含或排除特定檔案。所有路徑都相對於資料來源位置 S3 儲存貯體。
-
同步模式 - 選擇您希望在資料來源內容變更時如何更新索引。當您Amazon Kendra第一次使用 同步資料來源時,預設會爬取所有內容並編製索引。如果初始同步失敗,即使您未選擇完全同步做為同步模式選項,仍必須執行資料的完整同步。
-
在同步執行排程中,針對頻率 - 選擇同步資料來源內容和更新索引的頻率。
-
選擇下一步。
-
在設定欄位映射頁面上,輸入下列選用資訊:
-
預設欄位映射 - 從您要映射至索引Amazon Kendra的產生預設資料來源欄位中選取 。
-
新增欄位 - 選擇新增自訂資料來源欄位,以建立要映射的索引欄位名稱和欄位資料類型。
-
選擇下一步。
-
在檢閱和建立頁面上,檢查您輸入的資訊是否正確,然後選取新增資料來源。您也可以選擇從此頁面編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在資料來源頁面上。
- API
-
Amazon Kendra連線至Amazon S3
您必須使用 TemplateConfiguration API 指定資料來源結構描述的 JSON。您必須提供下列資訊:
-
資料來源 - 當您使用 TemplateConfiguration JSON 結構描述S3時,指定資料來源類型。同時將資料來源指定為當您呼叫 CreateDataSource API TEMPLATE時。
-
BucketName - 包含文件的儲存貯體名稱。
-
同步模式 - 指定 Amazon Kendra如何在資料來源內容變更時更新索引。當您第一次使用Amazon Kendra 同步資料來源時,預設會爬取所有內容並編製索引。如果初始同步失敗,即使您未選擇完全同步做為同步模式選項,仍必須執行資料的完整同步。您可以選擇:
-
IAMrole - 指定RoleArn您何時呼叫 CreateDataSource 以提供IAM角色存取Secrets Manager秘密的許可,以及呼叫 S3 連接器和 所需的公有 APIsAmazon Kendra。如需詳細資訊,請參閱 IAM S3 資料來源的角色。
您也可以新增下列選用功能:
-
Virtual Private Cloud (VPC) — 指定VpcConfiguration何時呼叫 CreateDataSource。如需詳細資訊,請參閱設定 Amazon Kendra以使用Amazon VPC。
-
包含和排除篩選條件 - 指定是否包含或排除特定檔案名稱、檔案類型、檔案路徑。您可以使用 glob 模式 (可將萬用字元模式展開為符合指定模式的路徑名稱清單的模式)。如需範例,請參閱 CLI 命令參考中的使用排除和包含篩選條件。AWS
-
文件中繼資料和存取控制組態—新增文件中繼資料和存取控制檔案,其中包含來源 URI、文件作者或自訂文件屬性/欄位等資訊,以及使用者可以存取的文件。每個中繼資料檔案都包含單一文件的相關中繼資料。
-
欄位映射 - 選擇將 S3 資料來源欄位映射至您的Amazon Kendra索引欄位。如需詳細資訊,請參閱映射資料來源欄位。
需要文件內文欄位或文件內文對等項目, Amazon Kendra才能搜尋您的文件。您必須將資料來源中的文件內文欄位名稱映射至索引欄位名稱 _document_body。所有其他欄位是選用的。
如需其他要設定之重要 JSON 金鑰的清單,請參閱S3範本結構描述。
進一步了解
若要進一步了解Amazon Kendra如何與您的 S3 資料來源整合,請參閱: