マルチモーダルコンテンツのナレッジベースを構築する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

マルチモーダルコンテンツのナレッジベースを構築する

Amazon Bedrock ナレッジベースは、イメージ、オーディオ、ビデオファイルなどのマルチモーダルコンテンツをサポートしています。イメージをクエリとして使用して検索したり、視覚的に類似したコンテンツを取得したり、従来のテキストドキュメントとともにマルチメディアファイルを処理したりできます。この機能を使用すると、組織全体に保存されているスタンドアロンイメージ、オーディオ録音、ビデオファイルなど、さまざまなデータ型からインサイトを抽出できます。

Amazon Bedrock ナレッジベースを使用すると、テキスト、ビジュアル、オーディオコンテンツにインデックスを作成して情報を取得できます。組織は、イメージを使用して製品カタログを検索したり、トレーニングビデオで特定の瞬間を検索したり、カスタマーサポートの通話録音から関連セグメントを取得したりできます。

リージョナルな可用性

マルチモーダル処理アプローチは、リージョンごとに可用性が異なります。詳細については、「リージョナルな可用性」を参照してください。

特徴と機能

マルチモーダルナレッジベースには、次の主要な機能があります。

イメージベースのクエリ

Nova マルチモーダル埋め込みを使用する場合、イメージを検索クエリとして送信して視覚的に類似したコンテンツを見つけます。製品マッチング、視覚的類似度検索、画像取得をサポートします。

オーディオコンテンツの取得

テキストクエリを使用してオーディオファイルを検索します。タイムスタンプ参照を含む記録から特定のセグメントを取得します。音声文字起こしにより、会議、通話、ポッドキャストなど、音声コンテンツ全体でテキストベースの検索が可能になります。

動画セグメントの抽出

テキストクエリを使用して、ビデオファイル内の特定の瞬間を見つけます。正確なタイムスタンプを使用してビデオセグメントを取得します。

クロスモーダル検索

テキストドキュメント、イメージ、オーディオ、ビデオなど、さまざまなデータ型を検索します。元の形式に関係なく、関連するコンテンツを取得します。

タイムスタンプ付きのソース参照

取得結果には、オーディオとビデオの時間メタデータを含む元のファイルへの参照が含まれます。マルチメディアコンテンツ内の関連セグメントへの正確なナビゲーションを有効にします。

柔軟な処理オプション

音声ベースのコンテンツの視覚的な類似性を得るにはネイティブマルチモーダル埋め込み、またはテキスト変換を選択します。コンテンツ特性とアプリケーション要件に基づいて処理アプローチを設定します。

仕組み

マルチモーダルナレッジベースは、さまざまなデータ型を適切に処理するマルチステージパイプラインを通じてコンテンツを処理および取得します。

取り込みと処理
  1. データソース接続: ナレッジベースを、テキストドキュメント、イメージ、オーディオファイル、ビデオファイルを含む Amazon S3 バケットまたはカスタムデータソースに接続します。

  2. ファイルタイプの検出: システムは各ファイルタイプを拡張機能で識別し、適切な処理パイプラインにルーティングします。

  3. コンテンツ処理: 設定に応じて、ファイルは 2 つの方法のいずれかを使用して処理されます。

    • Nova マルチモーダル埋め込み: ビジュアルとオーディオの類似度マッチングのためにネイティブ形式を保持します。画像、オーディオ、ビデオは、テキストに変換せずに直接埋め込まれます。

    • Bedrock Data Automation (BDA): マルチメディアをテキスト表現に変換します。音声は自動音声認識 (ASR) を使用して文字起こしされ、ビデオはシーンの概要とトランスクリプトを抽出するように処理され、画像は OCR とビジュアルコンテンツ抽出されます。

  4. 埋め込み生成: 選択した埋め込みモデルを使用して、処理されたコンテンツがベクトル埋め込みに変換されます。これらの埋め込みはセマンティックな意味をキャプチャし、類似度ベースの取得を可能にします。

  5. ベクトルストレージ: 埋め込みは、ファイル参照、タイムスタンプ (オーディオとビデオの場合)、コンテンツタイプ情報などのメタデータとともに、設定されたベクトルデータベースに保存されます。

  6. マルチモーダルストレージ (オプション): 設定されている場合、元のマルチメディアファイルは信頼できる取得のために専用のマルチモーダルストレージ先にコピーされ、ソースファイルが変更または削除された場合でも可用性が確保されます。

クエリと取得
  1. クエリ処理: ユーザークエリ (テキストまたはイメージ) は、取り込み中に使用されるのと同じ埋め込みモデルを使用して埋め込みに変換されます。

  2. 類似度検索: クエリ埋め込みは、ベクトルデータベースに保存されている埋め込みと比較され、最も関連性の高いコンテンツを識別します。

  3. 結果の取得: システムは、次のようなメタデータを含む一致するコンテンツを返します。

    • ソース URI (元のファイルの場所)

    • タイムスタンプメタデータ (オーディオセグメントとビデオセグメント用)

    • コンテンツタイプとモダリティ情報

  4. レスポンス生成 (オプション): RetrieveAndGenerateリクエストの場合、取得したコンテンツは基盤モデルに渡され、コンテキストに関連するテキストレスポンスが生成されます。これは、BDA 処理を使用する場合、またはナレッジベースにテキストコンテンツが含まれている場合にサポートされます。

重要

システムは、オーディオおよびビデオコンテンツのタイムスタンプメタデータを含む完全なファイルへの参照を返します。アプリケーションは、指定された開始タイムスタンプと終了タイムスタンプに基づいて、特定のセグメントを抽出して再生する必要があります。はこれを自動的にAWS マネジメントコンソール処理します。