本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Kendra Web 爬蟲程式
您可以使用 Amazon Kendra Web Crawler 來編目和編製網頁索引。
您只能爬取使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 的公開網站或內部公司網站。如果在網路爬取網站時收到錯誤訊息,可能是網站阻止網路爬取。若要爬取內部網站,您可以設定 Web 代理。Web 代理必須是公開的。您也可以使用身分驗證來存取和爬取網站。
選取要索引的網站時,您必須遵守 Amazon 可接受的使用政策
注意
濫用 Amazon Kendra Web Crawler 來積極地爬取非您所擁有的網站或網頁,不被視為可接受使用。
Amazon Kendra 有兩個版本的web crawler連接器。每個版本的支援功能包括:
Amazon Kendra Web Crawler 連接器 v1.0 / WebCrawlerConfiguration API
-
Web 代理
-
包含/排除篩選條件
Amazon Kendra Web Crawler 連接器 v2.0 / TemplateConfiguration API
-
欄位映射
-
包含/排除篩選條件
-
完整和增量內容同步
-
Web 代理
-
網站的基本、NTLM/Kerberos、SAML 和表單身分驗證
-
虛擬私有雲端 (VPC)
重要
不支援建立 Web Crawler v2.0 連接器。 AWS CloudFormation如果您需要 AWS CloudFormation 支援,請使用 Web Crawler 1.0 版連接器。
如需對 Amazon Kendra Web 爬蟲程式資料來源連接器進行故障診斷,請參閱對資料來源進行故障診斷。