設定 Amazon Kendra Web Crawler robots.txt的檔案 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 Amazon Kendra Web Crawler robots.txt的檔案

Amazon Kendra 是一種智慧型搜尋服務, AWS 客戶可用來為其所選文件編製索引和搜尋文件。為了在 Web 上為文件編製索引,客戶可以使用 Amazon Kendra Web Crawler (指出哪些 URL 應編製索引) 和其他操作參數。 Amazon Kendra 客戶在編製任何特定網站的索引之前,必須先取得授權。

Amazon Kendra Web Crawler 遵守標準 robots.txt 指令,例如 AllowDisallow。您可以修改網站robots.txt的檔案,以控制 Amazon Kendra Web Crawler 如何爬取您的網站。

設定 Amazon Kendra Web Crawler 存取您網站的方式

您可以使用 AllowDisallow指令控制 Amazon Kendra Web Crawler 如何為您的網站編製索引。您也可以控制哪些網頁會編製索引,以及哪些網頁不會爬取。

若要允許 Amazon Kendra Web Crawler 爬取除不允許的網頁以外的所有網頁,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

若要允許 Amazon Kendra Web Crawler 僅爬取特定網頁,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

若要允許 Amazon Kendra Web Crawler 爬取所有網站內容,並禁止任何其他機器人的爬取,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

防止 Amazon Kendra Web Crawler 爬取您的網站

您可以使用 Disallow指令,停止 Amazon Kendra Web Crawler 為您的網站編製索引。您也可以控制哪些網頁被爬取,哪些則否。

若要停止 Amazon Kendra Web Crawler 爬取網站,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

如果您對 Amazon Kendra Web Crawler 有任何疑問或疑慮,請聯絡AWS 支援團隊