マルチモーダル処理アプローチリージョナルな可用性コンテンツタイプ別の選択基準サポートされているファイルタイプとデータソース機能と制限事項

マルチモーダル処理アプローチの選択

Amazon Bedrock ナレッジベースには、マルチモーダルコンテンツを処理するための 2 つのアプローチがあります。ビジュアル類似度検索用の Nova Multimodal Embeddings と、マルチメディアコンテンツのテキストベースの処理用の Bedrock Data Automation (BDA) です。入力モダリティが画像ではあるがオーディオやビデオではない場合、基盤モデルをパーサーとして使用することもできます。

このセクションでは、マルチモーダルコンテンツの処理アプローチとして Nova マルチモーダル埋め込みと BDA を使用する方法について説明します。各アプローチは、さまざまなユースケースとクエリパターンに合わせて最適化されています。

マルチモーダル処理アプローチ

次の表は、マルチモーダルコンテンツを処理するための Nova マルチモーダル埋め込みと BDA の比較を示しています。

処理アプローチの比較
特性	Nova マルチモーダル埋め込み	Bedrock データオートメーション (BDA)
処理方法	中間テキスト変換なしで埋め込みを生成します	マルチメディアをテキストに変換し、埋め込みを作成します
サポートされているクエリタイプ	テキストクエリまたはイメージクエリ	テキストクエリのみ
主なユースケース	視覚的類似度検索、製品マッチング、画像検出	音声文字起こし、テキストベースの検索、コンテンツ分析
RAG 機能	テキストコンテンツのみに制限	フル`RetrieveAndGenerate`サポート
ストレージの要件	マルチモーダルストレージの宛先が必要	マルチモーダルストレージの送信先はオプションですが、指定しない場合、テキストデータのみが BDA によって処理されます。テキスト以外の入力の場合は、マルチモーダルストレージの送信先を指定する必要があります。

リージョナルな可用性

リージョナルな可用性
Nova マルチモーダル埋め込み	Bedrock データオートメーション (BDA)
米国東部 (バージニア北部) のみ	米国西部 (オレゴン) 米国東部 (バージニア北部) 欧州 (フランクフルト) 欧州 (ロンドン) 欧州 (アイルランド) アジアパシフィック (ムンバイ) アジアパシフィック (シドニー) AWSGovCloud (米国西部)

コンテンツタイプ別の選択基準

この決定マトリックスを使用して、コンテンツとユースケースの要件に基づいて適切な処理アプローチを選択します。

注記

Amazon Nova マルチモーダル埋め込みモデルで BDA パーサーを使用する場合、埋め込みモデルはテキスト埋め込みモデルのように動作します。マルチモーダルコンテンツを使用する場合は、ユースケースに応じて最適な結果を得るために、いずれかの処理方法を使用します。

コンテンツタイプ別の処理アプローチの推奨事項
コンテンツタイプ	Nova マルチモーダル埋め込み	Bedrock データオートメーション (BDA)
製品カタログとイメージ	推奨 - 視覚的類似度マッチングと画像ベースのクエリを有効にします	制限あり - OCR を介してのみテキストを抽出します
会議の録音と通話	音声コンテンツを意味のある方法で処理できない	推奨 - 完全な音声文字起こしと検索可能なテキストを提供します
トレーニングビデオと教育ビデオ	部分的 - ビジュアルコンテンツを処理しますが、音声を見逃します	推奨 - 音声トランスクリプトとビジュアルの説明の両方をキャプチャします
カスタマーサポートの記録	非推奨 - 音声コンテンツを効果的に処理できない	推奨 - 検索可能な会話のトランスクリプトを作成します
テクニカルダイアグラムとグラフ	推奨 - 視覚的な類似性とパターンマッチングには優れていません	制限あり - テキストラベルを抽出しますが、視覚的な関係を見逃します

サポートされているファイルタイプとデータソース

サポートされているファイルタイプは、選択した処理方法によって異なります。

処理アプローチでサポートされるファイルタイプ
ファイルタイプ	Nova マルチモーダル埋め込み	Bedrock データオートメーション (BDA)
イメージ	.png、.jpg、.jpeg、.gif、.webp	.png、.jpg、.jpeg
音声	.mp3、.ogg、.wav	.amr、.flac、.m4a、.mp3、.ogg、.wav
動画	.mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp	.mp4、.mov
ドキュメント	テキストとして処理	.pdf (および画像からのテキスト抽出)

サポートされているデータソース

マルチモーダルコンテンツは、次のデータソースでサポートされています。

Amazon S3: すべてのマルチモーダルファイルタイプのフルサポート
カスタムデータソース: 最大 10MB の base64 エンコードされたインラインコンテンツのサポート

重要

マルチモーダル取り出しは現在、Amazon S3 データソースでのみ使用できます。他のデータソース (Confluence、SharePoint、Salesforce、Web Crawler) は、取り込み中にマルチモーダルファイルを処理しません。これらのファイルはスキップされ、マルチモーダルクエリでは使用できません。

機能と制限事項

Nova マルチモーダル埋め込み

主な機能:

ネイティブのマルチモーダル処理により、元のコンテンツ形式が保持され、最適な視覚的類似性マッチングを実現
イメージベースのクエリを使用すると、ユーザーはイメージをアップロードし、視覚的に類似したコンテンツを見つけることができます。
製品カタログ、ビジュアル検索、コンテンツ検出アプリケーションの優れたパフォーマンス

[Limitations:] (制限:)

音声またはオーディオコンテンツを効果的に処理できない - 音声情報は検索できません
RetrieveAndGenerate テキストコンテンツのみに制限されたおよび再ランク付け機能
専用のマルチモーダルストレージ先の設定が必要です

Bedrock データオートメーション (BDA)

主な機能:

自動音声認識 (ASR) テクノロジーを使用した包括的な音声文字起こし
ビジュアルコンテンツ分析は、イメージとビデオシーンの説明テキストを生成します。
フルRetrieveAndGenerateサポートにより、すべてのコンテンツで完全な RAG 機能を実現
テキストベースの検索は、すべてのマルチメディアコンテンツタイプで一貫して機能します。

[Limitations:] (制限:)

Nova マルチモーダル埋め込みなしで使用した場合、イメージベースのクエリはサポートされません - すべての検索でテキスト入力を使用する必要があります
視覚的類似度マッチングまたはimage-to-image検索を実行できない
コンテンツ変換要件により取り込み処理時間が長くなる
Nova マルチモーダル埋め込みと比較して、サポートするマルチメディアファイル形式が少ない

音声コンテンツ処理

Nova マルチモーダル埋め込みでは、音声ファイルまたはビデオファイル内の音声コンテンツを効果的に処理できません。マルチメディアコンテンツにユーザーが検索する必要がある重要な話者情報が含まれている場合は、完全な文字起こしと検索可能性を確保するために BDA アプローチを選択します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

マルチモーダルコンテンツのナレッジベースを構築する

前提条件