Amazon Kendra Web Crawler がウェブサイトにアクセスする方法の設定 Amazon Kendra Web Crawler によるウェブサイトのクロールの停止

Amazon Kendra Web Crawler の `robots.txt` ファイルの設定

Amazon Kendra は、 AWS お客様が選択したドキュメントのインデックス作成と検索に使用するインテリジェントな検索サービスです。ウェブ上のドキュメントのインデックスを作成するには、顧客は Amazon Kendra ウェブクローラを使用できます。これは、インデックスを作成する URL やその他の運用パラメータを示します。 Amazon Kendra 顧客は、特定のウェブサイトのインデックスを作成する前に認可を取得する必要があります。

Amazon Kendra Web Crawler は、 Allowやなどの標準の robots.txt ディレクティブを尊重しますDisallow。ウェブサイトの robots.txt ファイルを変更して、 Amazon Kendra Web Crawler がウェブサイトをクロールする方法を制御できます。

Amazon Kendra Web Crawler がウェブサイトにアクセスする方法の設定

Allow および Disallowディレクティブを使用して、 Amazon Kendra Web Crawler がウェブサイトのインデックスを作成する方法を制御できます。また、インデックス作成されるウェブページとクロールしないウェブページを制御することもできます。

Web Crawler Amazon Kendra が、許可されていないウェブページを除くすべてのウェブページをクロールできるようにするには、次のディレクティブを使用します。


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Disallow: /credential-pages/ # disallow access to specific pages

Amazon Kendra Web Crawler が特定のウェブページのみをクロールできるようにするには、次のディレクティブを使用します。


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Allow: /pages/ # allow access to specific pages

Amazon Kendra Web Crawler がすべてのウェブサイトコンテンツをクロールし、他のロボットのクロールを禁止するには、次のディレクティブを使用します。


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Amazon Kendra Web Crawler によるウェブサイトのクロールの停止

Disallow ディレクティブを使用して、 Amazon Kendra Web Crawler によるウェブサイトのインデックス作成を停止できます。また、クロールされるウェブページとクロールしないウェブページを制御できます。

Amazon Kendra Web Crawler によるウェブサイトのクロールを停止するには、次のディレクティブを使用します。


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Disallow: / # disallow access to any pages

Amazon Kendra Web Crawler に関するご質問やご不明点がございましたら、 AWS サポートチームにお問い合わせください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Kendra ウェブクローラーコネクタ v2.0

Box

Amazon Kendra Web Crawler の robots.txt ファイルの設定

Amazon Kendra Web Crawler がウェブサイトにアクセスする方法の設定

Amazon Kendra Web Crawler によるウェブサイトのクロールの停止

Amazon Kendra Web Crawler の `robots.txt` ファイルの設定