Amazon Kendra Web 爬蟲程式 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Kendra Web 爬蟲程式

您可以使用 Amazon Kendra Web Crawler 來編目和編製網頁索引。

您只能爬取使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 的公開網站或內部公司網站。如果在網路爬取網站時收到錯誤訊息,可能是網站阻止網路爬取。若要爬取內部網站,您可以設定 Web 代理。Web 代理必須是公開的。您也可以使用身分驗證來存取和爬取網站。

選取要索引的網站時,您必須遵守 Amazon 可接受的使用政策以及 Amazon所有其他條款。請記住,您只能使用 Amazon Kendra Web Crawler 為您自己的網頁或您有權編製索引的網頁編製索引。若要了解如何停止 Amazon Kendra Web Crawler 為您的網站編製索引 (請參閱 ),請參閱 設定 Amazon Kendra Web Crawler robots.txt的檔案

注意

濫用 Amazon Kendra Web Crawler 來積極地爬取非您所擁有的網站或網頁,被視為可接受使用。

Amazon Kendra 有兩個版本的web crawler連接器。每個版本的支援功能包括:

Amazon Kendra Web Crawler 連接器 v1.0 / WebCrawlerConfiguration API

  • Web 代理

  • 包含/排除篩選條件

Amazon Kendra Web Crawler 連接器 v2.0 / TemplateConfiguration API

  • 欄位映射

  • 包含/排除篩選條件

  • 完整和增量內容同步

  • Web 代理

  • 網站的基本、NTLM/Kerberos、SAML 和表單身分驗證

  • 虛擬私有雲端 (VPC)

重要

不支援建立 Web Crawler v2.0 連接器。 AWS CloudFormation如果您需要 AWS CloudFormation 支援,請使用 Web Crawler 1.0 版連接器。

如需對 Amazon Kendra Web 爬蟲程式資料來源連接器進行故障診斷,請參閱對資料來源進行故障診斷