本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Kendra Web 爬蟲程式連接器 1.0 版
<a name="data-source-v1-web-crawler"></a>

您可以使用 Amazon Kendra Web 爬蟲程式來編目和編製網頁索引。

您只能網路爬取公開網站，以及使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 的網站。如果在網路爬取網站時收到錯誤訊息，可能是網站阻止網路爬取。若要爬取內部網站，可設定 Web 代理伺服器。Web 代理伺服器必須可供公網存取。

*選取要索引的網站時，您必須遵守 [Amazon 可接受的使用政策](https://aws.amazon.com/aup/)以及 Amazon所有其他條款。請記住，您只能使用 Amazon Kendra Web Crawler 為您自己的網頁或您有權編製索引的網頁編製索引。若要了解如何停止 Amazon Kendra Web Crawler 為您的網站編製索引，請參閱 ()[為 Amazon Kendra Web 爬蟲程式設定 `robots.txt` 檔案](stop-web-crawler.md)。*

**注意**  
濫用 Amazon Kendra Web 爬蟲程式來積極地爬取非您所擁有的網站或網頁，**並不**被視為可接受使用。

如需對 Amazon Kendra Web 爬蟲程式資料來源連接器進行故障診斷，請參閱 [對資料來源進行故障診斷](troubleshooting-data-sources.md)。

**Topics**
+ [支援的功能](#supported-features-v1-web-crawler)
+ [先決條件](#prerequisites-v1-web-crawler)
+ [連線指示](#data-source-v1-procedure-web-crawler)
+ [進一步了解](#web-crawler-learn-more)

## 支援的功能
<a name="supported-features-v1-web-crawler"></a>
+ Web 代理伺服器
+ 包含/排除篩選條件

## 先決條件
<a name="prerequisites-v1-web-crawler"></a>

在您可以使用 Amazon Kendra 為網站編製索引之前，請檢查網站和 AWS 帳戶的詳細資訊。

**對於您的網站，請確定您有：**
+ 複製您要編製索引之網站的種子或網站地圖 URLs。
+ **對於需要基本身分驗證的網站**：記下使用者名稱和密碼，並複製網站的主機名稱和連接埠號碼。
+ **選用：**複製網站的主機名稱和連接埠號碼，如果您想要使用 Web 代理連線到您要抓取的內部網站。Web 代理必須面向公有。 Amazon Kendra 支援連接到由基本身分驗證支援的 Web 代理伺服器，或者您可以不使用身分驗證進行連線。
+ 已檢查您要編製索引的每個網頁文件是唯一的，而且在您計劃用於相同索引的其他資料來源中。您想要用於索引的每個資料來源不得包含跨資料來源的相同文件。文件 IDs是索引的全域 ID，且每個索引必須是唯一的。

**在您的帳戶中 AWS ，請確定您有：**
+ [已建立 Amazon Kendra 索引](https://docs.aws.amazon.com/kendra/latest/dg/create-index.html)，如果使用 API， 會記下索引 ID。
+ 為您的資料來源[建立 IAM 角色](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds)，如果使用 API， 會記下 IAM 角色的 ARN。
**注意**  
如果您變更身分驗證類型和登入資料，則必須更新您的 IAM 角色以存取正確的 AWS Secrets Manager 秘密 ID。
+ 對於需要身分驗證的網站，或者如果使用 Web 代理搭配身分驗證， 會將您的身分驗證憑證存放在 AWS Secrets Manager 秘密中，如果使用 API， 會記下秘密的 ARN。
**注意**  
建議定期更新或輪換憑證與機密。僅授予作業所需的最低存取層級，以確保自身安全。**我們不**建議您在資料來源以及連接器 1.0 和 2.0 版 （如適用） 之間重複使用登入資料和秘密。

如果您沒有現有的 IAM 角色或秘密，您可以在連接web crawler資料來源時，使用 主控台建立新的 IAM 角色和 Secrets Manager 秘密 Amazon Kendra。如果您使用 API，則必須提供現有 IAM 角色和 Secrets Manager 秘密的 ARN，以及索引 ID。

## 連線指示
<a name="data-source-v1-procedure-web-crawler"></a>

若要 Amazon Kendra 連線至web crawler資料來源，您必須提供web crawler資料來源的必要詳細資訊， Amazon Kendra 才能存取您的資料。如果您尚未web crawler為 設定 ， Amazon Kendra 請參閱 [先決條件](#prerequisites-v1-web-crawler)。

------
#### [ Console ]

** Amazon Kendra 連線至 web crawler** 

1. 登入 AWS 管理主控台 並開啟 [Amazon Kendra 主控台](https://console.aws.amazon.com/kendra/)。

1. 從左側導覽窗格中，選擇**索引**，然後從索引清單中選擇您要使用的索引。
**注意**  
您可以選擇在索引設定下設定或編輯**使用者存取控制**設定。 ****

1. 在**入門**頁面上，選擇**新增資料來源**。

1. 在**新增資料來源**頁面上，選擇 **Web 爬蟲程式連接器**，然後選擇**新增連接器**。如果使用版本 2 （如適用），請選擇具有「V2.0」標籤的 **Web 爬蟲程式連接器**。

1. 在**指定資料來源詳細資訊**頁面上，輸入下列資訊：

   1. 在**名稱和描述**中，針對**資料來源名稱** - 輸入資料來源的名稱。您可以包含連字號，但不能包含空格。

   1. （選用） **描述** — 輸入資料來源的選用描述。

   1. 在**預設語言** - 選擇語言來篩選索引的文件。除非您另有指定，否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

   1. 在**標籤**中，針對**新增標籤** - 包含選用標籤，以搜尋和篩選您的資源或追蹤您的 AWS 成本。

   1. 選擇**下一步**。

1. 在**定義存取和安全性**頁面上，輸入下列資訊：

   1. 對於**來源**，根據您的使用案例選擇**來源 URLs**和**來源網站地圖**，然後輸入每個值。

      您最多可以新增 10 URLs 和三個網站地圖。
**注意**  
若要由編目程式爬取網站地圖，請確認基礎或根 URL 是否與網站地圖頁面中列出的 URL 相同。例如：若您的網站地圖 URL 為 *https://example.com/sitemap-page.html*，則該網站地圖頁面中列出的 URL 也必須使用相同的基本 URL "https://example.com/"。

   1. （選用） 針對 **Web 代理** — 輸入下列資訊：

      1. **主機名稱** — 需要 Web 代理的主機名稱。

      1. **連接埠號碼** - 主機 URL 傳輸通訊協定所使用的連接埠。連接埠號碼應為 0 至 65535 的數值。

      1. 對於 **Web 代理登入**資料 - 如果您的 Web 代理連線需要身分驗證，請選擇現有的秘密或建立新的秘密來存放身分驗證登入資料。如果您選擇建立新的秘密，則會 AWS Secrets Manager 開啟秘密視窗。

      1. 在**建立 AWS Secrets Manager Secrets Manager 秘密視窗中**輸入下列資訊：

         1. **機密名稱** - 輸入您的機密名稱。字首「AmazonKendra-WebCrawler-」會自動新增至您的秘密名稱。

         1. 針對**使用者名稱和密碼** ****- 為您的網站輸入這些基本身分驗證憑證。

         1. 選擇**儲存**。

   1. （選用） **具有身分驗證的主機** - 選取以新增具有身分驗證的其他主機。

   1. **IAM role** - 選擇現有 IAM 角色或建立新的 IAM 角色，以存取您的儲存庫登入資料和索引內容。
**注意**  
IAM 用於索引的 角色無法用於資料來源。如果您不確定現有角色是否用於索引或常見問答集，請選擇**建立新角色**以避免錯誤。

   1. 選擇**下一步**。

1. 在**設定同步設定**頁面上，輸入下列資訊：

   1. **爬蟲範圍** - 選擇您要爬蟲的網頁類型。

   1. **爬取深度** - 從 Amazon Kendra 應該爬取的種子 URL 選取關卡數量。

   1. **進階爬蟲設定****和其他組態**輸入下列資訊：

      1. **檔案大小上限** - 要爬取的網頁或附件大小上限。最小 0.000001 MB (1 位元組）。上限 50 MB。

      1. **每頁連結數上限** - 每頁抓取的連結數上限。會依照外觀順序爬取連結。每頁最少 1 個連結。每頁最多 1000 個連結。

      1. **限流上限** - 每分鐘每個主機名稱爬取URLs 數目上限。每分鐘每個主機名稱最少 1 個 URL。每分鐘每個主機名稱最多 300 個 URL。

      1. **Regex 模式** - 新增規則表達式模式，以包含或排除特定 URLs。最多可新增 100 個模式。

   1. 在**同步執行排程**中，針對**頻率** - 選擇與您的資料來源 Amazon Kendra 同步的頻率。

   1. 選擇**下一步**。

1. 在**檢閱和建立**頁面上，檢查您輸入的資訊是否正確，然後選取**新增資料來源**。您也可以選擇從此頁面編輯您的資訊。成功新增資料來源後，您的**資料來源**將顯示在資料來源頁面上。

------
#### [ API ]

** Amazon Kendra 連線至 web crawler**

您必須使用 [WebCrawlerConfiguration](https://docs.aws.amazon.com/kendra/latest/dg/API_WebCrawlerConfiguration.html) API 指定下列項目：
+ **URLs** - 指定網站的種子或起點 URLs，或您要使用 [https://docs.aws.amazon.com/kendra/latest/dg/API_SeedUrlConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_SeedUrlConfiguration.html)和 抓取的網站的網站地圖 URLs[https://docs.aws.amazon.com/kendra/latest/dg/API_SiteMapsConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_SiteMapsConfiguration.html)。
**注意**  
若要由編目程式爬取網站地圖，請確認基礎或根 URL 是否與網站地圖頁面中列出的 URL 相同。例如：若您的網站地圖 URL 為 *https://example.com/sitemap-page.html*，則該網站地圖頁面中列出的 URL 也必須使用相同的基本 URL "https://example.com/"。
+ **秘密 Amazon Resource Name (ARN)**：如果網站需要基本身分驗證，請提供主機名稱、連接埠號碼和秘密，以存放使用者名稱和密碼的基本身分驗證憑證。您可以使用 [https://docs.aws.amazon.com/kendra/latest/dg/API_AuthenticationConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_AuthenticationConfiguration.html) API 提供秘密 ARN。秘密會以下列金鑰存放在 JSON 結構中：

  ```
  {
      "username": "user name",
      "password": "password"
  }
  ```

  您也可以使用 AWS Secrets Manager 秘密提供 Web 代理登入資料。您可以使用 [https://docs.aws.amazon.com/kendra/latest/dg/API_ProxyConfiguration.html](https://docs.aws.amazon.com/kendra/latest/dg/API_ProxyConfiguration.html) API 來提供網站主機名稱和連接埠號碼，以及選擇性地提供存放 Web 代理登入資料的秘密。
+ **IAM role**—指定`RoleArn`您何時呼叫 `CreateDataSource` 以提供 IAM 角色存取 Secrets Manager 秘密的許可，以及呼叫 Web 爬蟲程式連接器所需的公有 APIs 和 Amazon Kendra。如需詳細資訊，請參閱 [IAM Web 爬蟲程式資料來源的角色](https://docs.aws.amazon.com/kendra/latest/dg/iam-roles.html#iam-roles-ds)。

您也可以新增下列選用功能：
+ **網路爬取模式** - 選擇是否僅網路爬取網站主機名稱，還是使用子網域來網路爬取其他網域網頁連結。
+ 從種子層級到爬取的「深度」或關卡數量。例如，種子 URL 頁面為深度 1，而且此頁面上也爬取的任何超連結為深度 2。
+ 單一網頁上要爬取URLs 數目上限。
+ 要爬取之網頁的大小上限，以 MB 為單位。
+ 每分鐘每個網站主機網路爬取的 URL 數目上限。
+ 要連線至 和網路爬取內部網站的 Web 代理主機和連接埠號碼。例如， 的主機名稱*https://a.example.com/page1.html*為 "a.example.com"，連接埠號碼為 443，HTTPS 的標準連接埠。如果需要 Web 代理登入資料才能連線到網站主機，您可以建立 AWS Secrets Manager 來存放登入資料。
+ 存取和爬取需要使用者身分驗證的網站的身分驗證資訊。
+ 您可以使用*自訂文件擴充*工具，將 HTML 中繼標籤擷取為欄位。如需詳細資訊，請參閱[在擷取過程中自訂文件中繼資料](https://docs.aws.amazon.com/kendra/latest/dg/custom-document-enrichment.html)。如需擷取 HTML 中繼標籤的範例，請參閱 [CDE 範例](https://github.com/aws-samples/amazon-kendra-cde-examples)。
+  **包含和排除篩選條件** - 指定是否包含或排除特定 URLs。
**注意**  
大多數資料來源使用規則表達式模式，作為包含或排除的篩選規則，稱為篩選條件。若您設定包含篩選條件，則只有符合該條件的內容會被編列索引。任何不符合包含篩選條件的文件都不會編製索引。如果您指定包含和排除篩選條件，則符合排除篩選條件的文件不會編製索引，即使它們符合包含篩選條件。

------

## 進一步了解
<a name="web-crawler-learn-more"></a>

若要進一步了解 Amazon Kendra 如何與您的web crawler資料來源整合，請參閱：
+ [使用 Amazon Kendra Web 爬蟲程式重新構想知識探索](https://aws.amazon.com/blogs/machine-learning/reimagine-knowledge-discovery-using-amazon-kendras-web-crawler/)