マルチモーダル処理アプローチの選択 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

マルチモーダル処理アプローチの選択

Amazon Bedrock ナレッジベースには、マルチモーダルコンテンツを処理するための 2 つのアプローチがあります。ビジュアル類似度検索用の Nova Multimodal Embeddings と、マルチメディアコンテンツのテキストベースの処理用の Bedrock Data Automation (BDA) です。入力モダリティが画像ではあるがオーディオやビデオではない場合、基盤モデルをパーサーとして使用することもできます。

このセクションでは、マルチモーダルコンテンツの処理アプローチとして Nova マルチモーダル埋め込みと BDA を使用する方法について説明します。各アプローチは、さまざまなユースケースとクエリパターンに合わせて最適化されています。

マルチモーダル処理アプローチ

次の表は、マルチモーダルコンテンツを処理するための Nova マルチモーダル埋め込みと BDA の比較を示しています。

処理アプローチの比較
特性 Nova マルチモーダル埋め込み Bedrock データオートメーション (BDA)
処理方法 中間テキスト変換なしで埋め込みを生成します マルチメディアをテキストに変換し、埋め込みを作成します
サポートされているクエリタイプ テキストクエリまたはイメージクエリ テキストクエリのみ
主なユースケース 視覚的類似度検索、製品マッチング、画像検出 音声文字起こし、テキストベースの検索、コンテンツ分析
RAG 機能 テキストコンテンツのみに制限 フルRetrieveAndGenerateサポート
ストレージの要件 マルチモーダルストレージの宛先が必要 マルチモーダルストレージの送信先はオプションですが、指定しない場合、テキストデータのみが BDA によって処理されます。テキスト以外の入力の場合は、マルチモーダルストレージの送信先を指定する必要があります。

リージョナルな可用性

リージョナルな可用性
Nova マルチモーダル埋め込み Bedrock データオートメーション (BDA)
米国東部 (バージニア北部) のみ
  • 米国西部 (オレゴン)

  • 米国東部 (バージニア北部)

  • 欧州 (フランクフルト)

  • 欧州 (ロンドン)

  • 欧州 (アイルランド)

  • アジアパシフィック (ムンバイ)

  • アジアパシフィック (シドニー)

  • AWSGovCloud (米国西部)

コンテンツタイプ別の選択基準

この決定マトリックスを使用して、コンテンツとユースケースの要件に基づいて適切な処理アプローチを選択します。

注記

Amazon Nova マルチモーダル埋め込みモデルで BDA パーサーを使用する場合、埋め込みモデルはテキスト埋め込みモデルのように動作します。マルチモーダルコンテンツを使用する場合は、ユースケースに応じて最適な結果を得るために、いずれかの処理方法を使用します。

コンテンツタイプ別の処理アプローチの推奨事項
コンテンツタイプ Nova マルチモーダル埋め込み Bedrock データオートメーション (BDA)
製品カタログとイメージ 推奨 - 視覚的類似度マッチングと画像ベースのクエリを有効にします 制限あり - OCR を介してのみテキストを抽出します
会議の録音と通話 音声コンテンツを意味のある方法で処理できない 推奨 - 完全な音声文字起こしと検索可能なテキストを提供します
トレーニングビデオと教育ビデオ 部分的 - ビジュアルコンテンツを処理しますが、音声を見逃します 推奨 - 音声トランスクリプトとビジュアルの説明の両方をキャプチャします
カスタマーサポートの記録 非推奨 - 音声コンテンツを効果的に処理できない 推奨 - 検索可能な会話のトランスクリプトを作成します
テクニカルダイアグラムとグラフ 推奨 - 視覚的な類似性とパターンマッチングには優れていません 制限あり - テキストラベルを抽出しますが、視覚的な関係を見逃します

サポートされているファイルタイプとデータソース

サポートされているファイルタイプは、選択した処理方法によって異なります。

処理アプローチでサポートされるファイルタイプ
ファイルタイプ Nova マルチモーダル埋め込み Bedrock データオートメーション (BDA)
イメージ .png、.jpg、.jpeg、.gif、.webp .png、.jpg、.jpeg
音声 .mp3、.ogg、.wav .amr、.flac、.m4a、.mp3、.ogg、.wav
動画 .mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp .mp4、.mov
ドキュメント テキストとして処理 .pdf (および画像からのテキスト抽出)
サポートされているデータソース

マルチモーダルコンテンツは、次のデータソースでサポートされています。

  • Amazon S3: すべてのマルチモーダルファイルタイプのフルサポート

  • カスタムデータソース: 最大 10MB の base64 エンコードされたインラインコンテンツのサポート

重要

マルチモーダル取り出しは現在、Amazon S3 データソースでのみ使用できます。他のデータソース (Confluence、SharePoint、Salesforce、Web Crawler) は、取り込み中にマルチモーダルファイルを処理しません。これらのファイルはスキップされ、マルチモーダルクエリでは使用できません。

機能と制限事項

Nova マルチモーダル埋め込み

主な機能:

  • ネイティブのマルチモーダル処理により、元のコンテンツ形式が保持され、最適な視覚的類似性マッチングを実現

  • イメージベースのクエリを使用すると、ユーザーはイメージをアップロードし、視覚的に類似したコンテンツを見つけることができます。

  • 製品カタログ、ビジュアル検索、コンテンツ検出アプリケーションの優れたパフォーマンス

[Limitations:] (制限:)

  • 音声またはオーディオコンテンツを効果的に処理できない - 音声情報は検索できません

  • RetrieveAndGenerate テキストコンテンツのみに制限された および 再ランク付け機能

  • 専用のマルチモーダルストレージ先の設定が必要です

Bedrock データオートメーション (BDA)

主な機能:

  • 自動音声認識 (ASR) テクノロジーを使用した包括的な音声文字起こし

  • ビジュアルコンテンツ分析は、イメージとビデオシーンの説明テキストを生成します。

  • フルRetrieveAndGenerateサポートにより、すべてのコンテンツで完全な RAG 機能を実現

  • テキストベースの検索は、すべてのマルチメディアコンテンツタイプで一貫して機能します。

[Limitations:] (制限:)

  • Nova マルチモーダル埋め込みなしで使用した場合、イメージベースのクエリはサポートされません - すべての検索でテキスト入力を使用する必要があります

  • 視覚的類似度マッチングまたはimage-to-image検索を実行できない

  • コンテンツ変換要件により取り込み処理時間が長くなる

  • Nova マルチモーダル埋め込みと比較して、サポートするマルチメディアファイル形式が少ない

音声コンテンツ処理

Nova マルチモーダル埋め込みでは、音声ファイルまたはビデオファイル内の音声コンテンツを効果的に処理できません。マルチメディアコンテンツにユーザーが検索する必要がある重要な話者情報が含まれている場合は、完全な文字起こしと検索可能性を確保するために BDA アプローチを選択します。