

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 為 Amazon Kendra Web 爬蟲程式設定 `robots.txt` 檔案
<a name="stop-web-crawler"></a>

Amazon Kendra 是一種智慧型搜尋服務， AWS 客戶可用來為其所選文件編製索引和進行搜尋。為了在 Web 上為文件編製索引，客戶可以使用 Amazon Kendra Web Crawler （網路爬蟲程式），指出應編製索引的 URL 和其他操作參數。 Amazon Kendra 客戶必須先取得授權，才能編製任何特定網站的索引。

Amazon Kendra Web Crawler 遵守標準 robots.txt 指令，例如 `Allow`和 `Disallow`。您可以修改網站`robots.txt`的檔案，以控制 Amazon Kendra Web 爬蟲程式如何爬取您的網站。

## 設定 Amazon Kendra Web 爬蟲程式存取您網站的方式
<a name="configure-web-crawler-website-access"></a>

您可以使用 `Allow`和 `Disallow`指令，控制 Amazon Kendra Web 爬蟲程式如何為您的網站編製索引。您也能控制哪些網頁納入索引，哪些網頁不會被爬取。

**若要允許 Amazon Kendra Web 爬蟲程式爬取除不允許的網頁以外的所有網頁，請使用下列指令：**

```
User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Disallow: /credential-pages/ # disallow access to specific pages
```

**若要允許 Amazon Kendra Web 爬蟲程式僅爬取特定網頁，請使用下列指令：**

```
User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Allow: /pages/ # allow access to specific pages
```

**若要允許 Amazon Kendra Web 爬蟲程式爬取所有網站內容，並禁止任何其他機器人的爬取，請使用下列指令：**

```
User-agent: amazon-kendra # Amazon Kendra Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages
```

## 停止 Amazon Kendra Web 爬蟲程式爬取您的網站
<a name="stop-web-crawler-access"></a>

您可以使用 `Disallow`指令停止 Amazon Kendra Web Crawler 索引您的網站。您也可以控制哪些 Web 頁面被編目，哪些則否。

**若要停止 Amazon Kendra Web 爬蟲程式爬取網站，請使用下列指令：**

```
User-agent: amazon-kendra # Amazon Kendra Web Crawler
Disallow: / # disallow access to any pages
```

如果您對 Amazon Kendra Web 爬蟲程式有任何疑問或疑慮，請聯絡[AWS 支援團隊](https://aws.amazon.com/contact-us/?nc1=f_m)。