データソースの解析オプション

解析とは、未加工データに含まれているコンテンツを理解し、抽出することを指します。Amazon Bedrock ナレッジベースには、取り込み中にデータソースを解析するための以下のオプションがあります。

Amazon Bedrock デフォルトパーサー – .txt、.md、.html、.doc/.docx、.xls/.xlsx、.pdf ファイルなどのテキストファイル内のテキストのみを解析します。このパーサーには使用料はかかりません。

注記
デフォルトパーサーはテキストのみを出力するため、ドキュメントに図、チャート、テーブル、画像が含まれている場合は、デフォルトパーサーではなく、Amazon Bedrock Data Automation または基盤モデルをパーサーとして使用することをお勧めします。Amazon Bedrock Data Automation と基盤モデルは、ドキュメントからこれらの要素を抽出し、出力として返すことができます。
Amazon Bedrock ナレッジベースには、.jpeg および .png の画像ファイルに加えて、.pdf ファイル内の図、チャート、テーブルなどのマルチモーダルデータを解析するための以下のパーサーが用意されています。これらのパーサーは、これらの図、チャート、テーブル、画像を抽出し、ナレッジベースの作成時に指定した S3 送信先にファイルとして保存することもできます。ナレッジベースの取得中に、これらのファイルをレスポンスまたはソース属性で返すことができます。
- Amazon Bedrock Data Automation – マルチモーダルデータを効果的に処理するフルマネージドサービス。追加のプロンプトを指定する必要はありません。このパーサーのコストは、ドキュメントのページ数や処理される画像の数によって異なります。このサービスの詳細については、「Amazon Bedrock Data Automation」を参照してください。
- 基盤モデル – 基盤モデルを使用してマルチモーダルデータを処理します。このパーサーには、データ抽出に使用されるデフォルトのプロンプトをカスタマイズするオプションがあります。このパーサーのコストは、基盤モデルによって処理される入出力トークンの数によって異なります。Amazon Bedrock ナレッジベースのデータの解析をサポートするモデルのリストについては、「解析でサポートされているモデルとリージョン」を参照してください。

重要

Amazon Bedrock Data Automation または基盤モデルをパーサーとして選択した場合、.pdf ファイルにテキストのみが含まれていても、選択した方法でデータソース内のすべての .pdf ファイルが解析されます。デフォルトパーサーは、これらの .pdf ファイルの解析には使用されません。お客様のアカウントには、これらのファイルを解析する際に使用した Amazon Bedrock Data Automation または基盤モデルの料金が課金されます。

データの解析方法を選択するときは、次の点を考慮してください。

データは純粋にテキストなのか、それとも画像、グラフ、チャートなどのマルチモーダルデータが含まれており、それらをナレッジベースでクエリできるようにするのか。
データの解析方法をモデルに指示するために使用されるプロンプトをカスタマイズするオプションが必要かどうか。
パーサーのコスト。Amazon Bedrock Data Automation では 1 ページあたりの料金が使用されますが、基盤モデルのパーサーの料金は入出力トークンに基づいて課金されます。詳細については、「Amazon Bedrock の料金体系」ページを参照してください。
ファイルの合計サイズ制限。基盤モデルをパーサーとして使用する場合、すべてのファイルの合計ファイルサイズは 100 GB 以下にする必要があります。

ナレッジベースの解析方法を設定する方法については、「データソースをナレッジベースと接続する」のデータソースの接続設定を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

コンテンツのチャンキング

データインジェストに Lambda 関数を使用する

データソースの解析オプション

注記

重要