

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon S3
<a name="data-source-s3"></a>

Amazon S3 是一種物件儲存服務，可將資料儲存為儲存貯體中的物件。您可以使用 Amazon Kendra 為文件的 Amazon S3 儲存貯體儲存庫編製索引。

**警告**  
Amazon Kendra 不會使用將許可授予 Amazon Kendra 委託人與 S3 儲存貯體互動的儲存貯體政策。而是使用 IAM 角色。請確定 Amazon Kendra 不包含在您的儲存貯體政策中做為信任的成員，以避免意外授予許可給任意委託人時發生任何資料安全問題。不過，您可以新增儲存貯體政策，以跨不同帳戶使用 儲存 Amazon S3 貯體。如需詳細資訊，請參閱[Amazon S3 跨帳戶使用的政策 ](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds-s3-cross-accounts)（在 S3 IAM 角色索引標籤中，**IAM 資料來源的角色**下）。如需 S3 資料來源 IAM 角色的相關資訊，請參閱 [IAM 角色](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds-s3)。

**注意**  
Amazon Kendra 現在支援升級的 Amazon S3 連接器。  
主控台已為您自動升級。您在主控台中建立的任何新連接器都將使用升級的架構。如果您使用 API，您現在必須使用 [https://docs.aws.amazon.com/kendra/latest/APIReference/API_TemplateConfiguration.html](https://docs.aws.amazon.com/kendra/latest/APIReference/API_TemplateConfiguration.html) 物件，而不是 `S3DataSourceConfiguration` 物件來設定連接器。  
使用較舊主控台和 API 架構設定的連接器將繼續按設定運作。不過，您將無法編輯或更新它們。如果您想要編輯或更新連接器組態，則必須建立新的連接器。  
建議您將連接器工作流程遷移至升級版本。使用較舊架構設定的連接器支援預計在 2024 年 6 月結束。

您可以使用 [Amazon Kendra 主控台](https://console.aws.amazon.com/kendra/)或 [TemplateConfiguration](https://docs.aws.amazon.com/kendra/latest/APIReference/API_TemplateConfiguration.html) API 連線到 Amazon S3 資料來源。

**注意**  
若要產生 Amazon S3 資料來源的同步狀態報告，請參閱[疑難排解資料來源](https://docs.aws.amazon.com/kendra/latest/dg/troubleshooting-data-sources.html#troubleshooting-data-sources-sync-status-manifest)。

如需對 Amazon Kendra S3 資料來源連接器進行故障診斷，請參閱 [對資料來源進行故障診斷](troubleshooting-data-sources.md)。

**Topics**
+ [支援的功能](#supported-features-s3)
+ [先決條件](#prerequisites-s3)
+ [連線指示](#data-source-procedure-s3)
+ [建立 Amazon S3 資料來源](create-ds-s3.md)
+ [Amazon S3 文件中繼資料](s3-metadata.md)
+ [Amazon S3 資料來源的存取控制](s3-acl.md)
+ [Amazon VPC 搭配 Amazon S3 資料來源使用](s3-vpc-example-1.md)

## 支援的功能
<a name="supported-features-s3"></a>
+ 欄位對應
+ 使用者存取控制
+ 包含/排除篩選條件
+ 完整和增量內容同步
+ 虛擬私有雲端 (VPC)

## 先決條件
<a name="prerequisites-s3"></a>

在您可以使用 Amazon Kendra 為 S3 資料來源編製索引之前，請在 S3 和帳戶中進行這些變更 AWS 。

**在 S3 中，請確定您有：**
+ 已複製儲存 Amazon S3 貯體的名稱。
**注意**  
您的儲存貯體必須與 Amazon Kendra 索引位於相同的區域，且您的索引必須具有存取包含您文件之儲存貯體的許可。
+ 已檢查每個文件在 S3 中以及您計劃用於相同索引的其他資料來源中都是唯一的。您要用於索引的每個資料來源不得包含跨資料來源的相同文件。文件 IDs是索引的全域 ID，且每個索引必須是唯一的。

**在您的帳戶中 AWS ，請確定您有：**
+ [已建立 Amazon Kendra 索引](https://docs.aws.amazon.com/kendra/latest/dg/create-index.html)，如果使用 API， 會記下索引 ID。
+ 為您的資料來源[建立 IAM 角色](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds)，如果使用 API， 會記下 IAM 角色的 ARN。

如果您沒有現有的 IAM 角色，則可以在將 S3 資料來源連接到 時使用 主控台來建立新的 IAM 角色 Amazon Kendra。如果您使用 API，則必須提供現有 IAM 角色的 ARN 和索引 ID。

## 連線指示
<a name="data-source-procedure-s3"></a>

若要 Amazon Kendra 連線至 S3 資料來源，您必須提供 S3 資料來源的必要詳細資訊，以便 Amazon Kendra 可以存取您的資料。如果您尚未為 設定 S3 Amazon Kendra，請參閱 [先決條件](#prerequisites-s3)。

------
#### [ Console ]

** Amazon Kendra 連線至 Amazon S3 ** 

1. 登入 AWS 管理主控台 並開啟 [Amazon Kendra 主控台](https://console.aws.amazon.com/kendra/)。

1. 從左側導覽窗格中，選擇**索引**，然後從索引清單中選擇您要使用的索引。
**注意**  
您可以選擇在索引設定下設定或編輯**使用者存取控制**設定。 ****

1. 在**入門**頁面上，選擇**新增資料來源**。

1. 在**新增資料來源**頁面上，選擇 **S3 連接器**，然後選擇**新增連接器**。如果使用版本 2 （如適用），請選擇具有「V2.0」標籤的 **S3 連接器**。

1. 在**指定資料來源詳細資訊**頁面上，輸入下列資訊：

   1. 在**名稱和描述**中，針對**資料來源名稱** - 輸入資料來源的名稱。您可以包含連字號，但不能包含空格。

   1. （選用） **描述** - 輸入資料來源的選用描述。

   1. 在**預設語言** - 選擇語言來篩選索引的文件。除非您另有指定，否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

   1. 在**標籤**中，針對**新增標籤** - 包含選用標籤，以搜尋和篩選您的資源或追蹤您的 AWS 成本。

   1. 選擇**下一步**。

1. 在**定義存取和安全性**頁面上，輸入下列選用資訊：

   1. **IAM role** - 選擇現有 IAM 角色或建立新的 IAM 角色，以存取您的儲存庫登入資料和索引內容。
**注意**  
IAM 用於索引的 角色無法用於資料來源。如果您不確定現有角色是否用於索引或常見問答集，請選擇**建立新角色**以避免錯誤。

   1. **Virtual Private Cloud (VPC)** — 您可以選擇使用 VPC。若是如此，您必須新增**子網路**和 **VPC 安全群組**。

   1. 選擇**下一步**。

1. 在**設定同步設定**頁面上，輸入下列資訊：

   1. 對於**資料來源位置** - 指定儲存資料之儲存 Amazon S3 貯體的路徑。選取**瀏覽 S3** 以選擇您的 S3 儲存貯體。

   1. 針對**檔案大小上限** - 指定限制，以 MB 為單位，僅限於低於此限制的爬蟲檔案。 Amazon Kendra 允許的檔案大小上限為 50 MB。

   1. 對於 （選用） **中繼資料檔案字首資料夾位置**—指定儲存欄位/屬性和其他文件中繼資料的資料夾路徑。選取**瀏覽 S3**，找到您的中繼資料資料夾。

   1. 對於 （選用） **存取控制清單組態檔案位置**—指定檔案的路徑，其中包含使用者的 JSON 結構及其對文件的存取。選取**瀏覽 S3**，找到您的 ACL 檔案。

   1. （選用） **選取解密金鑰** - 選取以使用解密金鑰。您可以選擇使用現有的 AWS KMS 金鑰。

   1. 對於 （選用） **其他組態** — 新增模式以包含或排除特定檔案。所有路徑都相對於資料來源位置 S3 儲存貯體。

   1. **同步模式** - 選擇您希望在資料來源內容變更時更新索引的方式。當您 Amazon Kendra 第一次使用 同步資料來源時，預設會爬取所有內容並編製索引。如果初始同步失敗，即使您未選擇完全同步做為同步模式選項，仍必須執行資料的完整同步。
      + 完全同步：全新編製所有內容的索引，每次資料來源與索引同步時取代現有的內容。
      + 新的、修改過的、刪除的同步：每次資料來源與索引同步時，僅將新的、修改過的和刪除的內容編製索引。 Amazon Kendra 可以使用資料來源的機制來追蹤自上次同步以來變更的內容和索引內容。

   1. 在**同步執行排程**中，針對**頻率** - 選擇同步資料來源內容和更新索引的頻率。

   1. 選擇**下一步**。

1. 在**設定欄位映射**頁面上，輸入下列選用資訊：

   1. **預設欄位映射** - 從您要映射到索引的 Amazon Kendra 產生預設資料來源欄位中選取 。

   1.  **新增欄位** - 選擇新增自訂資料來源欄位，以建立要映射的索引欄位名稱和欄位資料類型。

   1. 選擇**下一步**。

1. 在**檢閱和建立**頁面上，檢查您輸入的資訊是否正確，然後選取**新增資料來源**。您也可以選擇從此頁面編輯您的資訊。成功新增資料來源後，您的**資料來源**將顯示在資料來源頁面上。

------
#### [ API ]

** Amazon Kendra 連線至 Amazon S3**

您必須使用 [TemplateConfiguration](https://docs.aws.amazon.com/kendra/latest/APIReference/API_TemplateConfiguration.html) API [指定資料來源結構描述](https://docs.aws.amazon.com/kendra/latest/dg/ds-schemas.html)的 JSON。您必須提供下列資訊：
+ **資料來源** - 當您使用 [https://docs.aws.amazon.com/kendra/latest/dg/API_TemplateConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_TemplateConfiguration.html) JSON 結構描述`S3`時，指定資料來源類型。當您呼叫 [https://docs.aws.amazon.com/kendra/latest/dg/API_CreateDataSource.html](https://docs.aws.amazon.com/kendra/latest/dg/API_CreateDataSource.html) API `TEMPLATE`時，也請將資料來源指定為 。
+ **BucketName** - 包含文件的儲存貯體名稱。
+ **同步模式** - 指定 Amazon Kendra 如何在資料來源內容變更時更新索引。當您第一次使用 Amazon Kendra 同步資料來源時，預設會爬取所有內容並編製索引。如果初始同步失敗，即使您未選擇完全同步做為同步模式選項，仍必須執行資料的完整同步。您可以選擇：
  + `FORCED_FULL_CRAWL` 以新編製所有內容的索引，每次資料來源與索引同步時都會取代現有的內容。
  + `FULL_CRAWL` 每次資料來源與您的索引同步時， 只會編製新內容、修改內容和已刪除內容的索引。 Amazon Kendra 可以使用資料來源的機制來追蹤自上次同步以來變更的內容變更和索引內容。
+ **IAM role**—指定`RoleArn`您何時呼叫 `CreateDataSource` 以提供 IAM 角色存取 Secrets Manager 秘密的許可，以及呼叫 S3 連接器和 所需的公有 APIs Amazon Kendra。如需詳細資訊，請參閱 [IAM S3 資料來源的角色](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds)。

您也可以新增下列選用功能：
+  **Virtual Private Cloud (VPC)**—指定您呼叫 `VpcConfiguration`的時間`CreateDataSource`。如需詳細資訊，請參閱[設定 Amazon Kendra 以使用 Amazon VPC](vpc-configuration.md)。
+  **包含和排除篩選條件** - 指定是否包含或排除特定檔案名稱、檔案類型、檔案路徑。您可以使用 glob 模式 （可將萬用字元模式展開為符合指定模式的路徑名稱清單的模式）。如需範例，請參閱 [CLI 命令參考中的使用排除和包含篩選條件](https://docs.aws.amazon.com/cli/latest/reference/s3/#use-of-exclude-and-include-filters)。 AWS 
+ **文件中繼資料和存取控制組態** - 新增文件中繼資料和存取控制檔案，其中包含來源 URI、文件作者或自訂文件屬性/欄位等資訊，以及使用者可以存取的文件。每個中繼資料檔案都包含單一文件的相關中繼資料。
+  **欄位映射** - 選擇將 S3 資料來源欄位映射至您的 Amazon Kendra 索引欄位。如需詳細資訊，請參閱[映射資料來源欄位](https://docs.aws.amazon.com/kendra/latest/dg/field-mapping.html)。
**注意**  
需要文件內文欄位或文件內文對等項目， Amazon Kendra 才能搜尋您的文件。您必須將資料來源中的文件內文欄位名稱映射至索引欄位名稱 `_document_body`。所有其他欄位是選用的。

如需要設定的其他重要 JSON 金鑰清單，請參閱[S3範本結構描述](https://docs.aws.amazon.com/kendra/latest/dg/ds-schemas.html#ds-s3-schema)。

------

### 進一步了解
<a name="s3-learn-more"></a>

若要進一步了解 Amazon Kendra 如何與您的 S3 資料來源整合，請參閱：
+ [使用具有 VPC 支援的 Amazon Kendra S3 Connector 精確搜尋答案](https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/)