本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon KendraWeb 爬蟲程式連接器 1.0 版
您可以使用 Amazon KendraWeb 爬蟲程式來編目和編製網頁索引。
您只能網路爬取公開網站,以及使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 的網站。如果在網路爬取網站時收到錯誤訊息,可能是網站阻止網路爬取。若要爬取內部網站,可設定 Web 代理伺服器。Web 代理伺服器必須可供公網存取。
選取要索引的網站時,您必須遵守 Amazon 可接受的使用政策以及 Amazon所有其他條款。請記住,您只能使用 Amazon KendraWeb Crawler 為您自己的網頁或您有權編製索引的網頁編製索引。若要了解如何停止 Amazon KendraWeb Crawler 為您的網站編製索引,請參閱 ()為 Amazon KendraWeb 爬蟲程式設定 robots.txt 檔案。
濫用 Amazon KendraWeb Crawler 來積極地爬取非您所擁有的網站或網頁,並不被視為可接受使用。
如需對 Amazon KendraWeb 爬蟲程式資料來源連接器進行故障診斷,請參閱 對資料來源進行故障診斷。
支援的功能
先決條件
在您可以使用 Amazon Kendra為網站編製索引之前,請檢查網站和AWS帳戶的詳細資訊。
對於您的網站,請確定您有:
-
複製您要編製索引之網站的種子或網站地圖 URLs。
-
對於需要基本身分驗證的網站:記下使用者名稱和密碼,並複製網站的主機名稱和連接埠號碼。
-
選用:複製網站的主機名稱和連接埠號碼,如果您想要使用 Web 代理連線到您要抓取的內部網站。Web 代理必須面向公有。 Amazon Kendra支援連線至由基本身分驗證支援的 Web 代理伺服器,或者您可以不使用身分驗證進行連線。
-
已檢查每個您要編製索引的網頁文件是唯一的,而且在您計劃用於相同索引的其他資料來源中也是如此。您要用於索引的每個資料來源不得包含跨資料來源的相同文件。文件 IDs是索引的全域 ID,且每個索引必須是唯一的。
在您的帳戶中AWS,請確定您有:
-
建立Amazon Kendra索引,如果使用 API, 會記下索引 ID。
-
為您的資料來源建立 IAM角色,如果使用 API, 會記下IAM角色的 ARN。
如果您變更身分驗證類型和登入資料,則必須更新您的IAM角色以存取正確的AWS Secrets Manager秘密 ID。
-
對於需要身分驗證的網站,或者如果使用 Web 代理搭配身分驗證, 會將您的身分驗證憑證存放在AWS Secrets Manager秘密中,如果使用 API, 會記下秘密的 ARN。
建議定期更新或輪換憑證與機密。僅授予作業所需的最低存取層級,以確保自身安全。我們不建議您在資料來源以及連接器 1.0 和 2.0 版 (如適用) 之間重複使用登入資料和秘密。
如果您沒有現有的IAM角色或秘密,您可以在連接web crawler資料來源時使用 主控台建立新的IAM角色和Secrets Manager秘密Amazon Kendra。如果您使用的是 API,則必須提供現有IAM角色和Secrets Manager秘密的 ARN,以及索引 ID。
連線指示
若要Amazon Kendra連線至web crawler資料來源,您必須提供web crawler資料來源的必要詳細資訊, Amazon Kendra才能存取您的資料。如果您尚未web crawler為 設定 ,Amazon Kendra請參閱 先決條件。
- Console
-
Amazon Kendra連線至 web crawler
-
登入 AWS 管理主控台並開啟 Amazon Kendra主控台。
-
從左側導覽窗格中,選擇索引,然後從索引清單中選擇您要使用的索引。
您可以選擇在索引設定下設定或編輯使用者存取控制設定。
-
在入門頁面上,選擇新增資料來源。
-
在新增資料來源頁面上,選擇 Web 爬蟲程式連接器,然後選擇新增連接器。如果使用版本 2 (如適用),請選擇具有「V2.0」標籤的 Web 爬蟲程式連接器。
-
在指定資料來源詳細資訊頁面上,輸入下列資訊:
-
在名稱和描述中,針對資料來源名稱 - 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。
-
(選用) 描述 — 輸入資料來源的選用描述。
-
在預設語言 - 選擇語言來篩選索引的文件。除非您另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。
-
在標籤中,針對新增標籤 - 包含選用標籤,以搜尋和篩選您的資源或追蹤您的AWS成本。
-
選擇下一步。
-
在定義存取和安全性頁面上,輸入下列資訊:
-
對於來源,根據您的使用案例選擇來源 URLs和來源網站地圖,然後輸入每個值。
您最多可以新增 10 URLs 和三個網站地圖。
若要由編目程式爬取網站地圖,請確認基礎或根 URL 是否與網站地圖頁面中列出的 URL 相同。例如:若您的網站地圖 URL 為 https://example.com/sitemap-page.html,則該網站地圖頁面中列出的 URL 也必須使用相同的基本 URL "https://example.com/"。
-
(選用) 針對 Web 代理 — 輸入下列資訊:
-
主機名稱 — 需要 Web 代理的主機名稱。
-
連接埠號碼 - 主機 URL 傳輸通訊協定所使用的連接埠。連接埠號碼應為 0 至 65535 的數值。
-
對於 Web 代理登入資料 - 如果您的 Web 代理連線需要身分驗證,請選擇現有的秘密或建立新的秘密來存放身分驗證登入資料。如果您選擇建立新的秘密,則會AWS Secrets Manager開啟秘密視窗。
-
在建立AWS Secrets ManagerSecrets Manager秘密視窗中輸入下列資訊:
-
機密名稱 - 輸入您的機密名稱。字首「AmazonKendra-WebCrawler-」會自動新增至您的秘密名稱。
-
針對使用者名稱和密碼 - 為您的網站輸入這些基本身分驗證憑證。
-
選擇儲存。
-
(選用) 具有身分驗證的主機 - 選取以新增具有身分驗證的其他主機。
-
IAMrole - 選擇現有IAM角色或建立新的IAM角色,以存取您的儲存庫登入資料和索引內容。
IAM用於索引的 角色無法用於資料來源。如果您不確定現有角色是否用於索引或常見問答集,請選擇建立新角色以避免錯誤。
-
選擇下一步。
-
在設定同步設定頁面上,輸入下列資訊:
-
爬蟲範圍 - 選擇您要爬蟲的網頁類型。
-
爬蟲深度 - 從Amazon Kendra應該爬蟲的種子 URL 選取關卡數量。
-
進階爬蟲設定和其他組態輸入下列資訊:
-
檔案大小上限 - 要爬取的網頁或附件大小上限。最小 0.000001 MB (1 位元組)。上限 50 MB。
-
每頁連結數上限 - 每頁抓取的連結數上限。會依照外觀順序爬取連結。每頁最少 1 個連結。每頁最多 1000 個連結。
-
限流上限 - 每分鐘每個主機名稱爬取URLs 數目上限。每分鐘每個主機名稱最少 1 個 URL。每分鐘每個主機名稱最多 300 個 URL。
-
Regex 模式 - 新增規則表達式模式,以包含或排除特定 URLs。最多可新增 100 個模式。
-
在同步執行排程中,針對頻率 - 選擇與您的資料來源Amazon Kendra同步的頻率。
-
選擇下一步。
-
在檢閱和建立頁面上,檢查您輸入的資訊是否正確,然後選取新增資料來源。您也可以選擇從此頁面編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在資料來源頁面上。
- API
-
Amazon Kendra連線至 web crawler
您必須使用 WebCrawlerConfiguration API 指定下列項目:
-
URLs - 指定網站的種子或起點 URLs,或您要使用 SeedUrlConfiguration和 抓取的網站的網站地圖 URLsSiteMapsConfiguration。
若要由編目程式爬取網站地圖,請確認基礎或根 URL 是否與網站地圖頁面中列出的 URL 相同。例如:若您的網站地圖 URL 為 https://example.com/sitemap-page.html,則該網站地圖頁面中列出的 URL 也必須使用相同的基本 URL "https://example.com/"。
-
秘密 Amazon Resource Name (ARN):如果網站需要基本身分驗證,請提供主機名稱、連接埠號碼,以及存放使用者名稱和密碼基本身分驗證憑證的秘密。您可以使用 AuthenticationConfiguration API 提供秘密 ARN。秘密會以下列金鑰存放在 JSON 結構中:
{
"username": "user name",
"password": "password"
}
您也可以使用AWS Secrets Manager秘密提供 Web 代理登入資料。您可以使用 ProxyConfiguration API 來提供網站主機名稱和連接埠號碼,以及選擇性地提供存放 Web 代理登入資料的秘密。
-
IAMrole—指定RoleArn您何時呼叫 CreateDataSource 以提供IAM角色存取Secrets Manager秘密的許可,以及呼叫 Web 爬蟲程式連接器所需的公有 APIs 和 Amazon Kendra。如需詳細資訊,請參閱 IAMWeb 爬蟲程式資料來源的角色。
您也可以新增下列選用功能:
-
網路爬取模式 - 選擇是否僅網路爬取網站主機名稱,還是具有子網域的主機名稱,還是同時網路爬取網頁連結的其他網域。
-
從種子層級到爬取的「深度」或關卡數量。例如,種子 URL 頁面為深度 1,而此頁面上也爬取的任何超連結為深度 2。
-
單一網頁上要爬取URLs 數目上限。
-
要爬取之網頁的大小上限,以 MB 為單位。
-
每分鐘每個網站主機網路爬取的 URL 數目上限。
-
要連線至 和網路爬取內部網站的 Web 代理主機和連接埠號碼。例如, 的主機名稱https://a.example.com/page1.html為 "a.example.com",連接埠號碼為 443,HTTPS 的標準連接埠。如果需要 Web 代理登入資料才能連線到網站主機,您可以建立 AWS Secrets Manager來存放登入資料。
-
存取和編目需要使用者身分驗證的網站的身分驗證資訊。
-
您可以使用自訂文件擴充工具,將 HTML 中繼標籤擷取為欄位。如需詳細資訊,請參閱在擷取過程中自訂文件中繼資料。如需擷取 HTML 中繼標籤的範例,請參閱 CDE 範例。
-
包含和排除篩選條件 - 指定是否包含或排除特定 URLs。
大多數資料來源使用規則表達式模式,作為包含或排除的篩選規則,稱為篩選條件。若您設定包含篩選條件,則只有符合該條件的內容會被編列索引。任何不符合包含篩選條件的文件都不會編製索引。如果您指定包含和排除篩選條件,則符合排除篩選條件的文件不會編製索引,即使它們符合包含篩選條件。
進一步了解
若要進一步了解Amazon Kendra如何與您的web crawler資料來源整合,請參閱: