Amazon Kendra ウェブクローラーコネクタ v1.0

Amazon Kendra Web Crawler を使用して、ウェブページをクロールおよびインデックス作成できます。

クロールできるのは、公開ウェブサイトと、安全な通信プロトコルである Hypertext Transfer Protocol Secure (HTTPS) を使用するウェブサイトのみです。ウェブサイトをクロールするときにエラーが発生した場合は、ウェブサイトのクロールがブロックされている可能性があります。内部ウェブサイトをクロールするには、ウェブプロキシを設定できます。ウェブプロキシは公開されている必要があります。

インデックス作成するウェブサイトを選択するときは、Amazon 利用規定ポリシーおよびその他の Amazon 規約のすべてに準拠している必要があります。Web Amazon Kendra Crawler は、独自のウェブページ、またはインデックス作成の権限を持つウェブページのインデックス作成にのみ使用する必要があることに注意してください。Web Crawler によるウェブサイト Amazon Kendra のインデックス作成を停止する方法については、「」を参照してくださいAmazon Kendra Web Crawler の robots.txt ファイルの設定。

注記

Amazon Kendra Web Crawler を使用して、所有していないウェブサイトやウェブページを積極的にクロールすることは、許容される用途とは見なされません。

Amazon Kendra ウェブクローラーデータソースコネクタのトラブルシューティングについては、「」を参照してくださいデータソースのトラブルシューティング。

サポートされている機能

ウェブプロキシ
包含/除外フィルター

前提条件

を使用してウェブサイト Amazon Kendra のインデックスを作成する前に、ウェブサイトと AWS アカウントの詳細を確認してください。

ウェブサイトについて、以下を確認してください。

インデックス作成するウェブサイトのシードまたはサイトマップ URL をコピーしました。
基本認証を必要とするウェブサイトの場合: ユーザー名とパスワードを書き留め、ウェブサイトのホスト名とポート番号をコピーしました。
オプション:ウェブプロキシを使用して、クロールする内部ウェブサイトに接続する場合に、ウェブサイトのホスト名とポート番号をコピーしました。ウェブプロキシは公開されている必要があります。 Amazon Kendra では、基本認証によってバックアップされたウェブプロキシサーバーへの接続がサポートされています。認証なしで接続することもできます。
インデックスを作成する各ドキュメントが一意であり、同じインデックスに使用する予定の他のデータソース間で一意であることを確認しました。インデックスに使用する各データソースには、データソース全体に同じドキュメントが含まれていてはなりません。ドキュメント ID はインデックス全体に適用され、インデックスごとに一意である必要があります。

AWS アカウントで、以下があることを確認します。

Amazon Kendra インデックスを作成し、API を使用している場合はインデックス ID を記録しました。
データソースの IAM ロールを作成し、 API を使用している場合はロールの ARN を記録しました IAM 。

注記
認証タイプと認証情報を変更する場合は、 IAM ロールを更新して正しい AWS Secrets Manager シークレット ID にアクセスする必要があります。
認証を必要とするウェブサイトの場合、または認証でウェブプロキシを使用する場合、は認証情報を AWS Secrets Manager シークレットに保存し、API を使用する場合はシークレットの ARN を記録しました。

注記
認証情報とシークレットは、定期的に更新またはローテーションすることをお勧めします。セキュリティに必要なアクセスレベルのみを提供してください。認証情報とシークレットを、データソース、コネクタバージョン 1.0 と 2.0 (該当する場合) で再利用することは推奨しません。

既存の IAM ロールまたはシークレットがない場合は、コンソールを使用して、web crawlerデータソースを接続するときに新しい IAM ロールと Secrets Manager シークレットを作成できます Amazon Kendra。API を使用している場合は、既存の IAM ロールと Secrets Manager シークレットの ARN とインデックス ID を指定する必要があります。

接続手順

web crawler データソース Amazon Kendra に接続するには、がデータ Amazon Kendra にアクセスできるように、web crawlerデータソースの必要な詳細を指定する必要があります。をまだ設定していない場合は、web crawler Amazon Kendra 「」を参照してください前提条件。

Console

Amazon Kendra に接続するには web crawler

にサインイン AWS マネジメントコンソールし、 Amazon Kendra コンソールを開きます。
左側のナビゲーションペインで、[インデックス] を選択し、インデックスのリストから使用するインデックスを選択します。

注記
[インデックスの設定] で、[ユーザーアクセスコントロール] 設定を設定または編集できます。
[使用開始] ページで、[データソースを追加] を選択します。
[データソースを追加] ページで、[ウェブクローラーコネクタ] を選択し、[コネクタを追加] を選択します。バージョン 2 (該当する場合) を使用している場合は、「V2.0」タグが付いたウェブクローラーコネクタを選択します。
[データソースの詳細を指定] ページで、次の情報を入力します。
1. [名前と説明] の [データソース名] に、データソースの名前を入力します。ハイフン (-) は使用できますが、スペースは使用できません。
2. (オプション) [説明] - オプションで、データソースの説明を入力します。
3. [デフォルト言語] - インデックス用にドキュメントをフィルターするための言語。特に指定しない限り、言語はデフォルトで英語に設定されます。ドキュメントのメタデータで指定された言語は、選択した言語よりも優先されます。
4. タグで新しいタグを追加する - リソースを検索してフィルタリングしたり、 AWS コストを追跡したりするためのオプションのタグを含めます。
5. [次へ] を選択します。
[アクセスとセキュリティの定義] ページで、次の情報を入力します。
1. [ソース] では、ユースケースに応じて [ソース URL] と [ソースサイトマップ] を選択し、それぞれの値を入力します。
  
  ソース URL は 10 個まで、サイトマップは 3 個まで追加できます。
  
  注記
  サイトマップをクロールする場合は、ベース URL またはルート URL がサイトマップページに記載されている URL と同じであることを確認してください。例えば、サイトマップ URL が https://example.com/sitemap-page.html の場合、このサイトマップページに記載されている URL にもベース URL "https://example.com/" を使用する必要があります。
2. (オプション) [ウェブプロキシ] - 次の情報を入力します。
  1. [ホスト名] - ウェブプロキシを必要とするホスト名。
  2. [ポート番号] - ホスト URL トランスポートプロトコルが使用するポート。ポート番号は 0～65535 の数字である必要があります。
  3. ウェブプロキシ認証情報の場合 - ウェブプロキシ接続で認証が必要な場合は、既存のシークレットを選択するか、認証情報を保存する新しいシークレットを作成します。新しいシークレットの作成を選択すると、 AWS Secrets Manager シークレットウィンドウが開きます。
  4. [ AWS Secrets Manager Secrets Manager シークレットウィンドウを作成] に次の情報を入力します。
    1. [シークレット名] - シークレットの名前。シークレット名に、プレフィックス「AmazonKendra-WebCrawler-」が自動的に追加されます。
    2. [ユーザー名] と [パスワード] - ウェブサイトの基本認証情報を入力します。
    3. [保存] を選択します。
3. (オプション) [認証済みのホスト] - 選択すると、認証付きのホストをさらに追加できます。
4. IAM role — 既存の IAM ロールを選択するか、新しい IAM ロールを作成してリポジトリの認証情報とインデックスコンテンツにアクセスします。
  
  注記
  IAM インデックスに使用されるロールは、データソースには使用できません。インデックスやよくある質問に既存のロールが使用されているかどうかが不明な場合は、エラーを避けるため、[新しいロールを作成] を選択してください。
5. [次へ] を選択します。
[同期設定の構成] ページで、次の情報を入力します。
1. [クロール範囲] - クロールするウェブページの種類を選択します。
2. クロール深度 — クロール Amazon Kendra するシード URL からレベルの数を選択します。
3. [クロールの詳細設定] および [追加設定] - 次の情報を入力します。
  1. [最大ファイルサイズ] - クロールするウェブページまたは添付ファイルの最大サイズ。最小 0.000001 MB (1 バイト)。最大 50 MB。
  2. 1 ページあたりの最大リンク数 - 1 ページあたりにクロールされるリンクの最大数。リンクは表示順にクロールされます。1 ページあたり最小 1 リンク。1 ページあたり最大 1000 リンク。
  3. 最大スロットリング - ホスト名ごとにクロールされる URL の、1 分あたりの最大数。ホスト名ごとに 1 分あたり最小 1 URL。ホスト名ごとに 1 分あたり最大 300 URL。
  4. [正規表現パターン] - 特定の URL を含めるまたは除外する正規表現パターンを追加します。最大 100 のパターンを追加できます。
4. 同期実行スケジュールで、頻度 - Amazon Kendra がデータソースと同期する頻度を選択します。
5. [次へ] を選択します。
[確認と作成] ページで、入力した情報が正しいことを確認し、[データソースを追加] を選択します。このページで情報の編集を選択することもできます。データソースが正常に追加されると、データソースが [データソース] ページに表示されます。

API

Amazon Kendra に接続するには web crawler

WebCrawlerConfiguration API を使用して以下を指定する必要があります。

URL - SeedUrlConfiguration と SiteMapsConfiguration を使用して、ウェブサイトのシード URL または開始ポイント URL、または、クロールするウェブサイトのサイトマップ URL を指定します。

注記
サイトマップをクロールする場合は、ベース URL またはルート URL がサイトマップページに記載されている URL と同じであることを確認してください。例えば、サイトマップ URL が https://example.com/sitemap-page.html の場合、このサイトマップページに記載されている URL にもベース URL "https://example.com/" を使用する必要があります。
シークレットの Amazon リソースネーム (ARN) - ウェブサイトが基本認証を使用する場合は、ホスト名、ポート番号、および、ユーザー名とパスワードの基本認証情報を保存するシークレットを指定します。AuthenticationConfiguration API を使用してシークレット ARN を指定します。シークレットは、次のキーを含む JSON 構造に保存されます。
```
{
    "username": "user name",
    "password": "password"
}
```
AWS Secrets Manager シークレットを使用してウェブプロキシ認証情報を指定することもできます。ProxyConfiguration API を使用して、ウェブサイトのホスト名とポート番号、およびウェブプロキシ認証情報を保存するシークレットを指定します。
IAM role — を呼び出しCreateDataSourceて、シー Secrets Manager クレットにアクセスするためのアクセス許可を IAM ロールに提供し、ウェブクローラーコネクタとに必要なパブリック APIs を呼び出すRoleArnタイミングを指定します Amazon Kendra。詳細については、「IAM roles for web crawler data sources」を参照してください。

オプションで、次の機能を追加することもできます。

クロールモード –ウェブサイトのホスト名のみをクロールするか、サブドメインを含むホスト名をクロールするか、ウェブページのリンク先となる他のドメインもクロールするかを選択します。
深さ、またはシードレベルからクロールするレベルの数。例えば、シード URL ページは深度 1 で、このページ上でクロールされるハイパーリンクはすべて深度 2 です。
クロールする単一ウェブページの URL の最大数。
クロールするウェブページの最大サイズ (MB 単位)。
1 分あたりウェブサイトホストごとにクロールされる URL の最大数。
内部ウェブサイトに接続してクロールするウェブプロキシのホストとポート番号。例えば、https://a.example.com/page1.html のホスト名は「a.example.com」で、ポート番号は HTTPS の標準ポートである 443 です。ウェブサイトホストへの接続にウェブプロキシ認証情報が必要な場合は、認証情報を保存する AWS Secrets Manager を作成できます。
ユーザー認証を必要とするウェブサイトにアクセスしてクロールするための認証情報。
カスタムドキュメントエンリッチメントツールを使用して、HTML メタタグをフィールドとして抽出できます。詳細については、取り込みプロセス中のドキュメントのメタデータのカスタマイズを参照してください。HTML メタタグの抽出例については、「CDE サンプル」を参照してください。
包含フィルターと除外フィルター - 特定の URL を含めるか除外するかを指定します。

注記
ほとんどのデータソースは、フィルターと呼ばれる包含または除外パターンである正規表現パターンを使用しています。包含フィルターを指定すると、包含フィルターに一致するコンテンツのみのインデックスが作成されます。包含フィルターに一致しないドキュメントのインデックスは作成されません。包含フィルターと除外フィルターを指定した場合、除外フィルターに一致するドキュメントは、包含フィルターと一致してもインデックスは作成されません。

詳細情報

web crawler データソース Amazon Kendra との統合の詳細については、以下を参照してください。

Amazon Kendraの Web Crawler を使用してナレッジ検出を再考する

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Kendra ウェブクローラー

Amazon Kendra ウェブクローラーコネクタ v2.0