データソースの追加と取り込みの開始 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データソースの追加と取り込みの開始

ナレッジベースを作成したら、マルチモーダルコンテンツを含むデータソースを追加し、コンテンツの処理とインデックス作成のための取り込みジョブを開始します。

データソースの削除動作

削除ポリシーが RETAIN に設定されているデータソースを削除すると、取り込まれたコンテンツはベクトルデータベースに残り、取得に引き続き使用されます。コンテンツは、データソースを削除した後にナレッジベースを明示的に同期した場合にのみ削除されます。デフォルトの DELETE ポリシーを持つデータソースは、削除中にベクトルデータベースとサプリメンタルストレージからコンテンツを自動的に削除します。これにより、ソースファイルが変更または削除されてもナレッジベースは引き続き機能しますが、削除されたデータソースの RETAIN ポリシーが検索結果に寄与する可能性があることに注意してください。

データソースを追加する

マルチモーダルコンテンツを含むデータソースをナレッジベースに追加します。

重要

BDA データソースの場合: オーディオ/ビデオサポートの起動後に作成されたデータソースのみがオーディオファイルとビデオファイルを処理します。この機能の起動前に作成された既存の BDA データソースは、引き続きオーディオファイルとビデオファイルをスキップします。既存のナレッジベースのオーディオ/ビデオ処理を有効にするには、新しいデータソースを作成します。

Console
コンソールからデータソースを追加するには
  1. ナレッジベースの詳細ページから、データソースの追加を選択します。

  2. データソースタイプとして Amazon S3 を選択します。

  3. データソースの名前と説明を入力します。

  4. バケット URI と包含プレフィックスを指定して、マルチモーダルファイルを含む Amazon S3 の場所を設定します。

  5. コンテンツの解析とチャンキングで、解析とチャンキングの方法を設定します。

    注記

    テキスト埋め込みモデルは、取得をテキストのみのコンテンツに制限しますが、Amazon Bedrock Data Automation (オーディオ、ビデオ、イメージの場合) または Foundation Model をパーサー (イメージの場合) として選択することで、テキストによるマルチモーダル取得を有効にすることができます。

    3 つの解析戦略から選択します。

    • Bedrock デフォルトパーサー: テキストのみの解析に推奨されます。このパーサーはマルチモーダルコンテンツを無視し、マルチモーダル埋め込みモデルで一般的に使用されます。

    • Bedrock Data Automation as parser: マルチモーダルコンテンツをテキストとして解析して保存し、PDFs、画像、オーディオ、ビデオファイルをサポートします。

    • パーサーとしての基盤モデル: イメージと構造化ドキュメントの高度な解析を提供し、PDFs、イメージ、テーブル、視覚的に豊富なドキュメントをサポートします。

  6. データソースの追加 を選択してデータソースを作成します。

CLI
を使用してデータソースを追加するにはAWS CLI
  • マルチモーダルコンテンツのデータソースを作成します。CreateDataSource リクエストを送信します。

    aws bedrock-agent create-data-source \ --knowledge-base-id <knowledge-base-id> \ --cli-input-json file://ds-multimodal.json

    Nova マルチモーダル埋め込み (特別な解析設定は不要) では、次のds-multimodal.jsonコンテンツを使用します。

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source", "description": "Data source with multimodal content", "dataDeletionPolicy": "RETAIN" }

    BDA 解析アプローチの場合は、次の設定を使用します。

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source_bda", "description": "Data source with BDA multimodal parsing", "dataDeletionPolicy": "RETAIN", "vectorIngestionConfiguration": { "parsingConfiguration": { "bedrockDataAutomationConfiguration": { "parsingModality": "MULTIMODAL" } } } }

取り込みジョブを開始する

データソースを追加したら、取り込みジョブを開始して、マルチモーダルコンテンツを処理してインデックスを作成します。

Console
コンソールから取り込みを開始するには
  1. データソースの詳細ページから、同期を選択します。

  2. データソースページで同期ステータスをモニタリングします。マルチモーダルファイルのサイズと数によっては、取り込みに数分かかる場合があります。

  3. 同期が正常に完了すると、マルチモーダルコンテンツにクエリを実行する準備が整います。

CLI
を使用して取り込みを開始するにはAWS CLI
  1. 取り込みジョブを開始します。StartIngestionJob リクエストを送信します。

    aws bedrock-agent start-ingestion-job \ --knowledge-base-id <knowledge-base-id> \ --data-source-id <data-source-id>

    プレースホルダーを以下に置き換えます。

    • <knowledge-base-id> - ナレッジベース作成の ID

    • <data-source-id> - データソース作成からの ID

  2. を使用して取り込みジョブのステータスをモニタリングしますGetIngestionJob

データソースの削除後の再同期

データソースを削除し、そのコンテンツをナレッジベースから削除する場合は、ナレッジベースを明示的に再同期する必要があります。

削除されたデータソースコンテンツを削除するには
  1. コンソールまたは DeleteDataSource API を使用してデータソースを削除します。

  2. 残りのデータソースで新しい取り込みジョブを開始して、ベクトルデータベースを更新し、削除されたデータソースからコンテンツを削除します。

  3. クエリが削除したデータソースから結果を返さないことを確認します。

注記

再同期しない場合、削除されたデータソースからのコンテンツは、データソースが存在しない場合でも検索結果に引き続き表示されます。