Amazon Kendra Web Crawler 用の robots.txt ファイルの設定
Amazon Kendra は、AWS のお客様が選択したドキュメントのインデックス付けと検索に使用する、インテリジェントな検索サービスです。ウェブ上のドキュメントのインデックス作成するために、Amazon Kendra Web Crawler を使用して、インデックスを作成する URL およびその他の操作パラメータを指定します。Amazon Kendra のお客様は、特定のウェブサイトのインデックスを作成する前に承認を取得する必要があります。
Amazon Kendra Web Crawler は、Allow および Disallow のような標準の robots.txt ディレクティブを尊重します。ウェブサイトの robots.txt ファイルを変更すると、Amazon Kendra Web Crawler がウェブサイトをクロールする方法を制御できます。
Amazon Kendra Web Crawler がウェブサイトにアクセスする方法の設定
Allow および Disallow ディレクティブを使用して、Amazon Kendra Web Crawler がウェブサイトのインデックスを作成方法を制御できます。また、インデックス作成されるウェブページとクロールしないウェブページを制御することもできます。
許可されていないウェブページを除くすべてのウェブページを Amazon Kendra Web Crawler がクロールできるようにするには、次のディレクティブを使用します。
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages
特定のウェブページのみを Amazon Kendra Web Crawler がクロールできるようにするには、次のディレクティブを使用します。
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages
すべてのウェブサイトコンテンツを Amazon Kendra Web Crawler がクロールできるようにして、他のロボットのクローリングを禁止するには、次のディレクティブを使用します。
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Amazon Kendra Web Crawler によるウェブサイトのクローリングの停止
Disallow ディレクティブを使用して、Amazon Kendra Web Crawler によるウェブサイトのインデックス作成を停止できます。また、クロールされるウェブページとクロールしないウェブページを制御できます。
Amazon Kendra Web Crawler によるウェブサイトのクローリングを停止するには、次のディレクティブを使用します。
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages
Amazon Kendra Web Crawler に関するご質問やご不明点については、AWS サポートチーム