Amazon KendraWeb 爬蟲程式 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon KendraWeb 爬蟲程式

您可以使用 Amazon KendraWeb 爬蟲程式來編目和編製網頁索引。

您只能網路爬取公開網站或使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 的內部公司網站。如果在網路爬取網站時收到錯誤訊息,可能是網站阻止網路爬取。若要爬取內部網站,可設定 Web 代理伺服器。Web 代理伺服器必須可供公網存取。也可透過驗證方式存取並爬取網站。

選取要索引的網站時,您必須遵守 Amazon 可接受的使用政策以及 Amazon所有其他條款。請記住,您只能使用 Amazon KendraWeb Crawler 為您自己的網頁或您有權編製索引的網頁編製索引。若要了解如何停止 Amazon KendraWeb Crawler 為您的網站編製索引 (請參閱 ),請參閱 為 Amazon KendraWeb 爬蟲程式設定 robots.txt 檔案

注意

濫用 Amazon KendraWeb 爬蟲程式來積極地爬取非您所擁有的網站或網頁,並不被視為可接受使用。

Amazon Kendra有兩個版本的web crawler連接器。每個版本的支援功能包括:

Amazon KendraWeb 爬蟲程式連接器 v1.0 / WebCrawlerConfiguration API

  • Web 代理伺服器

  • 包含/排除篩選條件

Amazon KendraWeb 爬蟲程式連接器 v2.0 / TemplateConfiguration API

  • 欄位對應

  • 包含/排除篩選條件

  • 完整和增量內容同步

  • Web 代理伺服器

  • 網站的基本、NTLM/Kerberos、SAML 和表單驗證

  • 虛擬私有雲端 (VPC)

重要

不支援建立 Web Crawler v2.0 連接器。CloudFormation如果您需要CloudFormation支援,請使用 Web Crawler v1.0 連接器。

如需對 Amazon KendraWeb 爬蟲程式資料來源連接器進行故障診斷,請參閱 對資料來源進行故障診斷