本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Kendra Web Crawler 連接器 1.0 版
您可以使用 Amazon Kendra Web Crawler 來編目和編製網頁索引。
您只能使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 爬取面向公有的網站和網站。如果在網路爬取網站時收到錯誤訊息,可能是網站阻止網路爬取。若要爬取內部網站,您可以設定 Web 代理。Web 代理必須是公開的。
選取要索引的網站時,您必須遵守 Amazon 可接受的使用政策以及 Amazon所有其他條款。請記住,您只能使用 Amazon Kendra Web Crawler 為您自己的網頁或您有權編製索引的網頁編製索引。若要了解如何停止 Amazon Kendra Web Crawler 為您的網站編製索引 (請參閱 ),請參閱 設定 Amazon Kendra Web Crawler robots.txt的檔案。
濫用 Amazon Kendra Web Crawler 來積極地爬取非您所擁有的網站或網頁,不被視為可接受使用。
如需對 Amazon Kendra Web 爬蟲程式資料來源連接器進行故障診斷,請參閱對資料來源進行故障診斷。
支援的功能
先決條件
在您可以使用 Amazon Kendra 為網站編製索引之前,請檢查網站和 AWS 帳戶的詳細資訊。
針對您的網站,請確定您有:
-
複製您要編製索引之網站的種子或網站地圖 URLs。
-
對於需要基本身分驗證的網站: 記下使用者名稱和密碼,並複製網站的主機名稱和連接埠號碼。
-
選用:複製網站的主機名稱和連接埠號碼,如果您想要使用 Web 代理連線到您要爬取的內部網站。Web 代理必須是面向公有的。 Amazon Kendra 支援連線至由基本身分驗證支援的 Web 代理伺服器,或者您可以不使用身分驗證進行連線。
-
已檢查每個您要編製索引的網頁文件是唯一的,而且在您計劃用於相同索引的其他資料來源中。您要用於索引的每個資料來源,在資料來源中不得包含相同的文件。文件 IDs是索引的全域 ID,且每個索引必須是唯一的。
在您的帳戶中 AWS ,請確定您已:
-
建立 Amazon Kendra 索引,如果使用 API, 會記下索引 ID。
-
為您的資料來源建立 IAM 角色,如果使用 API, 會記下 IAM 角色的 ARN。
如果您變更身分驗證類型和登入資料,則必須更新您的 IAM 角色以存取正確的 AWS Secrets Manager 秘密 ID。
-
對於需要身分驗證的網站,或者如果使用 Web 代理進行身分驗證,請將您的身分驗證憑證存放在 AWS Secrets Manager 秘密中,如果使用 API, 會記下秘密的 ARN。
我們建議您定期重新整理或輪換您的登入資料和秘密。僅為您自己的安全提供必要的存取層級。我們不建議您重複使用跨資料來源和連接器 1.0 和 2.0 版 (如適用) 的登入資料和秘密。
如果您沒有現有的 IAM 角色或秘密,則可以使用 主控台,在將web crawler資料來源連接到 時建立新的 IAM 角色和 Secrets Manager 秘密 Amazon Kendra。如果您使用 API,則必須提供現有 IAM 角色和 Secrets Manager 秘密的 ARN,以及索引 ID。
連線指示
若要 Amazon Kendra 連線至web crawler資料來源,您必須提供web crawler資料來源的必要詳細資訊,讓 Amazon Kendra 可以存取您的資料。如果您尚未設定 web crawler , Amazon Kendra 請參閱 先決條件。
- Console
-
Amazon Kendra 連線至 web crawler
-
登入 AWS Management Console 並開啟 Amazon Kendra 主控台。
-
從左側導覽窗格中,選擇索引,然後從索引清單中選擇您要使用的索引。
您可以選擇在索引設定下設定或編輯使用者存取控制設定。
-
在入門頁面上,選擇新增資料來源。
-
在新增資料來源頁面上,選擇 Web 爬蟲程式連接器,然後選擇新增連接器。如果使用第 2 版 (如適用),請選擇具有「V2.0」標籤的 Web 爬蟲程式連接器。
-
在指定資料來源詳細資訊頁面上,輸入下列資訊:
-
在名稱和描述中,針對資料來源名稱—輸入資料來源的名稱。您可以包含連字號,但不能包含空格。
-
(選用) 描述 — 輸入資料來源的選用描述。
-
在預設語言 - 選擇語言來篩選索引的文件。除非您另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。
-
在標籤中,針對新增標籤 - 包含選用標籤,以搜尋和篩選您的資源或追蹤您的 AWS 成本。
-
選擇 Next (下一步)。
-
在定義存取和安全頁面上,輸入下列資訊:
-
對於來源,根據您的使用案例在來源 URLs和來源網站地圖之間進行選擇,並輸入每個值。
您最多可以新增 10 URLs 和三個網站地圖。
如果您想要抓取網站地圖,請檢查基礎或根 URL 是否與網站地圖頁面上列出的 URLs相同。例如,如果您的網站地圖 URL 是 https://example.com/sitemap-page.html,則此網站地圖頁面上列出的 URLs也應使用基本 URL "https://example.com/"。
-
(選用) 針對 Web 代理 — 輸入下列資訊:
-
主機名稱 — 需要 Web 代理的主機名稱。
-
連接埠號碼 - 主機 URL 傳輸通訊協定所使用的連接埠。連接埠號碼應為介於 0 到 65535 之間的數值。
-
對於 Web 代理登入資料 - 如果您的 Web 代理連線需要身分驗證,請選擇現有的秘密或建立新的秘密來存放身分驗證登入資料。如果您選擇建立新的秘密,則會 AWS Secrets Manager 開啟秘密視窗。
-
在建立 AWS Secrets Manager Secrets Manager 秘密視窗中輸入下列資訊:
-
秘密名稱 — 秘密的名稱。字首「AmazonKendra-WebCrawler-」會自動新增至您的秘密名稱。
-
針對使用者名稱和密碼 - 輸入網站的基本身分驗證憑證。
-
選擇 Save (儲存)。
-
(選用) 具有身分驗證的主機 - 選取以新增具有身分驗證的其他主機。
-
IAM role—選擇現有 IAM 角色或建立新的 IAM 角色,以存取您的儲存庫登入資料和索引內容。
IAM 用於索引的 角色無法用於資料來源。如果您不確定現有角色是否用於索引或常見問答集,請選擇建立新角色以避免錯誤。
-
選擇 Next (下一步)。
-
在設定同步設定頁面上,輸入下列資訊:
-
爬取範圍 - 選擇您要爬取的網頁類型。
-
爬蟲深度 - 從 Amazon Kendra 應該爬蟲的種子 URL 選取關卡數量。
-
進階爬蟲設定和其他組態輸入下列資訊:
-
檔案大小上限 - 要爬取的網頁或附件大小上限。最小 0.000001 MB (1 位元組)。最大 50 MB。
-
每頁連結數上限 - 每頁爬取的連結數上限。連結會依外觀順序進行爬取。最少 1 個連結/頁面。最多 1000 個連結/頁面。
-
限流上限 - 每分鐘每個主機名稱所爬取URLs 數目上限。最少 1 URLs/主機名稱/分鐘。上限為 300 URLs/主機名稱/分鐘。
-
Regex 模式 - 新增規則表達式模式,以包含或排除特定 URLs。您最多可以新增 100 個模式。
-
在同步執行排程中,針對頻率 - 選擇與您的資料來源 Amazon Kendra 同步的頻率。
-
選擇 Next (下一步)。
-
在檢閱和建立頁面上,檢查您輸入的資訊是否正確,然後選取新增資料來源。您也可以選擇從此頁面編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在資料來源頁面上。
- API
-
Amazon Kendra 連線至 web crawler
您必須使用 WebCrawlerConfiguration API 指定下列項目:
-
URLs — 指定網站的種子或起點 URLs,或您要使用 SeedUrlConfiguration和 爬取的網站的網站的網站地圖 URLsSiteMapsConfiguration。
如果您想要抓取網站地圖,請檢查基礎或根 URL 是否與網站地圖頁面上列出的 URLs相同。例如,如果您的網站地圖 URL 是 https://example.com/sitemap-page.html,則此網站地圖頁面上列出的 URLs也應使用基本 URL "https://example.com/"。
-
秘密 Amazon Resource Name (ARN):如果網站需要基本身分驗證,請提供主機名稱、連接埠號碼和秘密,以存放使用者名稱和密碼的基本身分驗證憑證。您可以使用 AuthenticationConfiguration API 提供秘密 ARN。秘密會以下列金鑰存放在 JSON 結構中:
{
"username": "user name"
,
"password": "password"
}
您也可以使用 AWS Secrets Manager 秘密提供 Web 代理登入資料。您可以使用 ProxyConfiguration API 來提供網站主機名稱和連接埠號碼,以及選擇性地儲存 Web 代理登入資料的秘密。
-
IAM role—指定RoleArn
您何時呼叫 CreateDataSource
以提供 IAM 角色存取 Secrets Manager 秘密的許可,以及呼叫 Web 爬蟲程式連接器所需的公有 APIs 和 Amazon Kendra。如需詳細資訊,請參閱 IAM Web 爬蟲程式資料來源的角色。
您也可以新增下列選用功能:
-
爬取模式 - 選擇是否只爬取網站主機名稱,還是使用子網域來爬取主機名稱,還是爬取網頁連結的其他網域。
-
從種子層級到爬取的「深度」或關卡數量。例如,種子 URL 頁面為深度 1,而且此頁面上也爬取的任何超連結為深度 2。
-
單一網頁上要爬取URLs 數目上限。
-
要爬取的網頁 MB 大小上限。
-
每分鐘每個網站主機網路爬取的 URL 數目上限。
-
要連線至 和爬取內部網站的 Web 代理主機和連接埠號碼。例如, 的主機名稱https://a.example.com/page1.html為 "a.example.com",連接埠號碼為 443,是 HTTPS 的標準連接埠。如果需要 Web 代理登入資料才能連線至網站主機,您可以建立 AWS Secrets Manager 來存放登入資料。
-
存取和爬取需要使用者身分驗證的網站的身分驗證資訊。
-
您可以使用自訂文件擴充工具,將 HTML 中繼標籤擷取為欄位。如需詳細資訊,請參閱在擷取過程中自訂文件中繼資料。如需擷取 HTML 中繼標籤的範例,請參閱 CDE 範例。
-
包含和排除篩選條件 - 指定是否包含或排除特定 URLs。
大多數資料來源都使用規則表達式模式,也就是稱為篩選條件的納入或排除模式。如果您指定包含篩選條件,則只會將符合包含篩選條件的內容編製索引。任何不符合包含篩選條件的文件都不會編製索引。如果您指定包含和排除篩選條件,則符合排除篩選條件的文件不會編製索引,即使它們符合包含篩選條件。
進一步了解
若要進一步了解 Amazon Kendra 如何與您的web crawler資料來源整合,請參閱: