データソースの追加と取り込みの開始

ナレッジベースを作成したら、マルチモーダルコンテンツを含むデータソースを追加し、コンテンツの処理とインデックス作成のための取り込みジョブを開始します。

データソースの削除動作

削除ポリシーが RETAIN に設定されているデータソースを削除すると、取り込まれたコンテンツはベクトルデータベースに残り、取得に引き続き使用されます。コンテンツは、データソースを削除した後にナレッジベースを明示的に同期した場合にのみ削除されます。デフォルトの DELETE ポリシーを持つデータソースは、削除中にベクトルデータベースとサプリメンタルストレージからコンテンツを自動的に削除します。これにより、ソースファイルが変更または削除されてもナレッジベースは引き続き機能しますが、削除されたデータソースの RETAIN ポリシーが検索結果に寄与する可能性があることに注意してください。

データソースを追加する

マルチモーダルコンテンツを含むデータソースをナレッジベースに追加します。

重要

BDA データソースの場合: オーディオ/ビデオサポートの起動後に作成されたデータソースのみがオーディオファイルとビデオファイルを処理します。この機能の起動前に作成された既存の BDA データソースは、引き続きオーディオファイルとビデオファイルをスキップします。既存のナレッジベースのオーディオ/ビデオ処理を有効にするには、新しいデータソースを作成します。

Console

コンソールからデータソースを追加するには

ナレッジベースの詳細ページから、データソースの追加を選択します。
データソースタイプとして Amazon S3 を選択します。
データソースの名前と説明を入力します。
バケット URI と包含プレフィックスを指定して、マルチモーダルファイルを含む Amazon S3 の場所を設定します。
コンテンツの解析とチャンキングで、解析とチャンキングの方法を設定します。

注記
テキスト埋め込みモデルは、取得をテキストのみのコンテンツに制限しますが、Amazon Bedrock Data Automation (オーディオ、ビデオ、イメージの場合) または Foundation Model をパーサー (イメージの場合) として選択することで、テキストによるマルチモーダル取得を有効にすることができます。

3 つの解析戦略から選択します。
- Bedrock デフォルトパーサー: テキストのみの解析に推奨されます。このパーサーはマルチモーダルコンテンツを無視し、マルチモーダル埋め込みモデルで一般的に使用されます。
- Bedrock Data Automation as parser: マルチモーダルコンテンツをテキストとして解析して保存し、PDFs、画像、オーディオ、ビデオファイルをサポートします。
- パーサーとしての基盤モデル: イメージと構造化ドキュメントの高度な解析を提供し、PDFs、イメージ、テーブル、視覚的に豊富なドキュメントをサポートします。
データソースの追加 を選択してデータソースを作成します。

CLI

を使用してデータソースを追加するには AWS CLI

マルチモーダルコンテンツのデータソースを作成します。CreateDataSource リクエストを送信します。


aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json

Nova マルチモーダル埋め込み (特別な解析設定は不要) の場合は、次のds-multimodal.jsonコンテンツを使用します。


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source",
    "description": "Data source with multimodal content",
    "dataDeletionPolicy": "RETAIN"
}

BDA 解析アプローチの場合は、次の設定を使用します。


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source_bda",
    "description": "Data source with BDA multimodal parsing",
    "dataDeletionPolicy": "RETAIN",
    "vectorIngestionConfiguration": {
        "parsingConfiguration": {
            "bedrockDataAutomationConfiguration": {
                "parsingModality": "MULTIMODAL"
            }
        }
    }
}

取り込みジョブを開始する

データソースを追加したら、取り込みジョブを開始して、マルチモーダルコンテンツを処理してインデックスを作成します。

データソースの削除後の再同期

データソースを削除し、そのコンテンツをナレッジベースから削除する場合は、ナレッジベースを明示的に再同期する必要があります。

削除されたデータソースコンテンツを削除するには

コンソールまたは DeleteDataSource API を使用してデータソースを削除します。
残りのデータソースで新しい取り込みジョブを開始して、ベクトルデータベースを更新し、削除されたデータソースからコンテンツを削除します。
クエリが削除したデータソースから結果を返さないことを確認します。

注記

再同期しない場合、削除されたデータソースのコンテンツは、データソースが存在しなくても検索結果に引き続き表示されます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ナレッジベースを作成する

ナレッジベースのテストとクエリ