Amazon Kendraウェブクローラーコネクタ v1.0 - Amazon Kendra

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Kendraウェブクローラーコネクタ v1.0

Amazon KendraWeb Crawler を使用して、ウェブページをクロールおよびインデックス作成できます。

クロールできるのは、公開ウェブサイトと、安全な通信プロトコルである Hypertext Transfer Protocol Secure (HTTPS) を使用するウェブサイトのみです。ウェブサイトをクロールするときにエラーが発生した場合は、ウェブサイトのクロールがブロックされている可能性があります。内部ウェブサイトをクロールするには、ウェブプロキシを設定できます。ウェブプロキシは公開されている必要があります。

インデックス作成するウェブサイトを選択するときは、Amazon 利用規定ポリシーおよびその他の Amazon 規約のすべてに準拠している必要があります。Web Amazon KendraCrawler は、独自のウェブページ、またはインデックス作成の権限を持つウェブページのインデックス作成にのみ使用する必要があることに注意してください。Web Crawler によるウェブサイトAmazon Kendraのインデックス作成を停止する方法については、「」を参照してくださいAmazon Kendra Web Crawler 用の robots.txt ファイルの設定

注記

Web Amazon KendraCrawler を使用して、所有していないウェブサイトやウェブページを積極的にクロールすることは、許容される用途とは見なされません

Amazon Kendraウェブクローラーデータソースコネクタのトラブルシューティングについては、「」を参照してくださいデータソースのトラブルシューティング

サポートされている機能

  • ウェブプロキシ

  • 包含/除外フィルター

前提条件

を使用してウェブサイトAmazon Kendraのインデックスを作成する前に、ウェブサイトとAWSアカウントの詳細を確認してください。

ウェブサイトについて、以下を確認してください。

  • インデックス作成するウェブサイトのシードまたはサイトマップ URL をコピーしました。

  • 基本認証を必要とするウェブサイトの場合: ユーザー名とパスワードを書き留め、ウェブサイトのホスト名とポート番号をコピーしました。

  • オプション:ウェブプロキシを使用して、クロールする内部ウェブサイトに接続する場合に、ウェブサイトのホスト名とポート番号をコピーしました。ウェブプロキシは公開されている必要があります。Amazon Kendra では、基本認証によってバックアップされたウェブプロキシサーバーへの接続がサポートされています。認証なしで接続することもできます。

  • インデックスを作成する各ドキュメントが一意であり、同じインデックスに使用する予定の他のデータソース間で一意であることを確認しました。インデックスに使用する各データソースには、データソース全体に同じドキュメントが含まれていてはなりません。ドキュメント ID はインデックス全体に適用され、インデックスごとに一意である必要があります。

AWSアカウントで、以下があることを確認します。

  • Amazon Kendraインデックスを作成し、API を使用している場合はインデックス ID を記録しました。

  • データソースの IAMロールを作成し、 API を使用している場合はロールの ARN を記録しましたIAM。

    注記

    認証タイプと認証情報を変更する場合は、IAMロールを更新して正しいAWS Secrets Managerシークレット ID にアクセスする必要があります。

  • 認証を必要とするウェブサイトの場合、または認証でウェブプロキシを使用する場合、 は認証情報を AWS Secrets Managerシークレットに保存し、API を使用する場合はシークレットの ARN を記録しました。

    注記

    認証情報とシークレットは、定期的に更新またはローテーションすることをお勧めします。セキュリティに必要なアクセスレベルのみを提供してください。認証情報とシークレットを、データソース、コネクタバージョン 1.0 と 2.0 (該当する場合) で再利用することは推奨しません

既存のIAMロールまたはシークレットがない場合は、web crawlerデータソースの接続時に コンソールを使用して新しいIAMロールとSecrets Managerシークレットを作成できますAmazon Kendra。API を使用している場合は、既存のIAMロールとSecrets Managerシークレットの ARN とインデックス ID を指定する必要があります。

接続手順

web crawler データソースAmazon Kendraに接続するには、 がデータAmazon Kendraにアクセスできるように、web crawlerデータソースの必要な詳細を指定する必要があります。をまだ設定していない場合は、web crawlerAmazon Kendra「」を参照してください前提条件

Console

Amazon Kendraに接続するには web crawler

  1. にサインインAWS マネジメントコンソールし、 Amazon Kendraコンソールを開きます。

  2. 左側のナビゲーションペインで、[インデックス] を選択し、インデックスのリストから使用するインデックスを選択します。

    注記

    [インデックスの設定] で、[ユーザーアクセスコントロール] 設定を設定または編集できます。

  3. [使用開始] ページで、[データソースを追加] を選択します。

  4. [データソースを追加] ページで、[ウェブクローラーコネクタ] を選択し、[コネクタを追加] を選択します。バージョン 2 (該当する場合) を使用している場合は、「V2.0」タグが付いたウェブクローラーコネクタを選択します。

  5. [データソースの詳細を指定] ページで、次の情報を入力します。

    1. [名前と説明][データソース名] に、データソースの名前を入力します。ハイフン (-) は使用できますが、スペースは使用できません。

    2. (オプション) [説明] - オプションで、データソースの説明を入力します。

    3. [デフォルト言語] - インデックス用にドキュメントをフィルターするための言語。特に指定しない限り、言語はデフォルトで英語に設定されます。ドキュメントのメタデータで指定された言語は、選択した言語よりも優先されます。

    4. タグで新しいタグを追加する - リソースを検索してフィルタリングしたり、AWSコストを追跡したりするためのオプションのタグを含めます。

    5. [次へ] を選択します。

  6. [アクセスとセキュリティの定義] ページで、次の情報を入力します。

    1. [ソース] では、ユースケースに応じて [ソース URL][ソースサイトマップ] を選択し、それぞれの値を入力します。

      ソース URL は 10 個まで、サイトマップは 3 個まで追加できます。

      注記

      サイトマップをクロールする場合は、ベース URL またはルート URL がサイトマップページに記載されている URL と同じであることを確認してください。例えば、サイトマップ URL が https://example.com/sitemap-page.html の場合、このサイトマップページに記載されている URL にもベース URL "https://example.com/" を使用する必要があります。

    2. (オプション) [ウェブプロキシ] - 次の情報を入力します。

      1. [ホスト名] - ウェブプロキシを必要とするホスト名。

      2. [ポート番号] - ホスト URL トランスポートプロトコルが使用するポート。ポート番号は 0~65535 の数字である必要があります。

      3. ウェブプロキシ認証情報の場合 - ウェブプロキシ接続で認証が必要な場合は、既存のシークレットを選択するか、認証情報を保存する新しいシークレットを作成します。新しいシークレットの作成を選択すると、AWS Secrets Manager シークレットウィンドウが開きます。

      4. [AWS Secrets Manager Secrets Manager シークレットウィンドウを作成] に次の情報を入力します。

        1. [シークレット名] - シークレットの名前。シークレット名に、プレフィックス「AmazonKendra-WebCrawler-」が自動的に追加されます。

        2. [ユーザー名][パスワード] - ウェブサイトの基本認証情報を入力します。

        3. [保存] を選択します。

    3. (オプション) [認証済みのホスト] - 選択すると、認証付きのホストをさらに追加できます

    4. IAMrole — 既存のIAMロールを選択するか、リポジトリの認証情報とインデックスコンテンツにアクセスするための新しいIAMロールを作成します。

      注記

      IAMインデックスに使用される ロールは、データソースには使用できません。インデックスやよくある質問に既存のロールが使用されているかどうかが不明な場合は、エラーを避けるため、[新しいロールを作成] を選択してください。

    5. [次へ] を選択します。

  7. [同期設定の構成] ページで、次の情報を入力します。

    1. [クロール範囲] - クロールするウェブページの種類を選択します。

    2. クロール深度 — クロールAmazon Kendraするシード URL からレベルの数を選択します。

    3. [クロールの詳細設定] および [追加設定] - 次の情報を入力します。

      1. [最大ファイルサイズ] - クロールするウェブページまたは添付ファイルの最大サイズ。最小 0.000001 MB (1 バイト)。最大 50 MB。

      2. 1 ページあたりの最大リンク数 - 1 ページあたりにクロールされるリンクの最大数。リンクは表示順にクロールされます。1 ページあたり最小 1 リンク。1 ページあたり最大 1000 リンク。

      3. 最大スロットリング - ホスト名ごとにクロールされる URL の、1 分あたりの最大数。ホスト名ごとに 1 分あたり最小 1 URL。ホスト名ごとに 1 分あたり最大 300 URL。

      4. [正規表現パターン] - 特定の URL を含めるまたは除外する正規表現パターンを追加します。最大 100 のパターンを追加できます。

    4. 同期実行スケジュール、頻度 - Amazon Kendraがデータソースと同期する頻度を選択します。

    5. [次へ] を選択します。

  8. [確認と作成] ページで、入力した情報が正しいことを確認し、[データソースを追加] を選択します。このページで情報の編集を選択することもできます。データソースが正常に追加されると、データソースが [データソース] ページに表示されます。

API

Amazon Kendraに接続するには web crawler

WebCrawlerConfiguration API を使用して以下を指定する必要があります。

  • URL - SeedUrlConfigurationSiteMapsConfiguration を使用して、ウェブサイトのシード URL または開始ポイント URL、または、クロールするウェブサイトのサイトマップ URL を指定します。

    注記

    サイトマップをクロールする場合は、ベース URL またはルート URL がサイトマップページに記載されている URL と同じであることを確認してください。例えば、サイトマップ URL が https://example.com/sitemap-page.html の場合、このサイトマップページに記載されている URL にもベース URL "https://example.com/" を使用する必要があります。

  • シークレットの Amazon リソースネーム (ARN) - ウェブサイトが基本認証を使用する場合は、ホスト名、ポート番号、および、ユーザー名とパスワードの基本認証情報を保存するシークレットを指定します。AuthenticationConfiguration API を使用してシークレット ARN を指定します。シークレットは、次のキーを含む JSON 構造に保存されます。

    { "username": "user name", "password": "password" }

    AWS Secrets Manager シークレットを使用してウェブプロキシ認証情報を指定することもできます。ProxyConfiguration API を使用して、ウェブサイトのホスト名とポート番号、およびウェブプロキシ認証情報を保存するシークレットを指定します。

  • IAMrole — を呼び出しCreateDataSourceて、シーSecrets Managerクレットにアクセスするためのアクセス許可を IAMロールに提供し、ウェブクローラーコネクタ および に必要なパブリック APIs を呼び出すRoleArnタイミングを指定しますAmazon Kendra。詳細については、「IAM roles for web crawler data sources」を参照してください。

オプションで、次の機能を追加することもできます。

  • クロールモード –ウェブサイトのホスト名のみをクロールするか、サブドメインを含むホスト名をクロールするか、ウェブページのリンク先となる他のドメインもクロールするかを選択します。

  • 深さ、またはシードレベルからクロールするレベルの数。例えば、シード URL ページは深度 1 で、このページ上でクロールされるハイパーリンクはすべて深度 2 です。

  • クロールする単一ウェブページの URL の最大数。

  • クロールするウェブページの最大サイズ (MB 単位)。

  • 1 分あたりウェブサイトホストごとにクロールされる URL の最大数。

  • 内部ウェブサイトに接続してクロールするウェブプロキシのホストとポート番号。例えば、https://a.example.com/page1.html のホスト名は 「a.example.com」で、ポート番号は HTTPS の標準ポートである 443 です。ウェブサイトホストへの接続にウェブプロキシ認証情報が必要な場合は、認証情報を保存する AWS Secrets Manager を作成できます。

  • ユーザー認証を必要とするウェブサイトにアクセスしてクロールするための認証情報。

  • カスタムドキュメントエンリッチメントツールを使用して、HTML メタタグをフィールドとして抽出できます。詳細については、取り込みプロセス中のドキュメントのメタデータのカスタマイズを参照してください。HTML メタタグの抽出例については、「CDE サンプル」を参照してください。

  • 包含フィルターと除外フィルター - 特定の URL を含めるか除外するかを指定します。

    注記

    ほとんどのデータソースは、フィルターと呼ばれる包含または除外パターンである正規表現パターンを使用しています。包含フィルターを指定すると、包含フィルターに一致するコンテンツのみのインデックスが作成されます。包含フィルターに一致しないドキュメントのインデックスは作成されません。包含フィルターと除外フィルターを指定した場合、除外フィルターに一致するドキュメントは、包含フィルターと一致してもインデックスは作成されません。

詳細はこちら

web crawler データソースAmazon Kendraとの統合の詳細については、以下を参照してください。