View a markdown version of this page

マルチモーダル理解 - Amazon Nova

マルチモーダル理解

Amazon Nova 2 Lite は、複数の入力モダリティを理解できます。このモデルには、画像、ドキュメント、動画、音声を理解して分析し、提供されたコンテンツに基づいて質問を推測して回答できるビジョン機能が備わっています。

このセクションでは、採用されている前処理戦略、コード例、考慮すべき関連する制限など、Amazon Nova で画像、ドキュメント、動画を操作するためのガイドラインの概要を説明します。

モダリティでサポートされているコンテンツタイプ

次の情報では、各メディアファイルタイプでサポートされているファイル形式と、受け入れられる入力方法について詳しく説明します。

メディアファイルタイプ サポートされるファイル形式 入力方法 サイズ制限 オブジェクト数
画像

PNG、JPEG、GIF、WebP

注: アニメーション GIF または WebP ファイルを使用する場合、最初のフレームのみが使用されます。

リクエストにデータを埋め込む

Converse API を使用する場合は、データをバイトとしてエンコードします。

Invoke API を使用する場合は、データを Base64 文字列としてエンコードします。

25 MB 5
Amazon S3 URI 合計 2 GB 1,000
動画 MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP

リクエストにデータを埋め込む

Converse API を使用する場合は、データをバイトとしてエンコードします。

Invoke API を使用する場合は、データを Base64 文字列としてエンコードします。

25 MB 1
Amazon S3 URI 1 GB 1

画像理解

画像の理解とは、Amazon Nova が画像を処理し、次のようなさまざまなコンピュータビジョンタスクを実行する能力を指します。

  • オブジェクト検出の実行

  • Visual Question Answering (VQA) による画像に関する質問への回答

  • 画像の分類と要約

  • 境界ボックス検出の実行

  • 光学文字認識 (OCR)

  • オブジェクト数の計算

画像は、API にバイト配列として渡すプロンプトとして、または S3 URI を介して含めることができます。

主要な技術情報

以下は、この機能を使用する際に留意すべき重要な技術情報です。

画像のサイズ設定と再スケーリング

Amazon Nova は、画質とパフォーマンスを最適化するために画像を自動的に再スケーリングします。

  • 最も近いアスペクト比 (1:1、1:2、2:3 など) を決定します

  • 一方の側が ≥ 896 ピクセルになるか、または元の画像の短い側と一致するように (いずれか大きい方) 再スケーリングします

  • アスペクト比を維持します

  • 最大 8,000 × 8,000 ピクセルの解像度をサポート

境界ボックス座標:

  • スクリーンショットの要素の識別や画像グラウンディングなどのタスクに役立ちます

  • 座標は、後処理で画像の元のディメンションに合わせて再スケーリングできます

  • [0, 1000] スケールの境界ボックスを返します。

画像トークンの推定

Amazon Nova は、各画像を処理用のトークンに変換します。トークンの数は、画像の解像度とアスペクト比によって異なります。

以下は、画像の解像度に基づくおおよそのトークン数の例です。

画像解像度 推定トークン
900 x 450 515
900 x 900 ~1,035
1400 x 900 ~1,600
1800 x 900 ~2,060
1300 x 1300 ~2,155

画像理解の例

リクエストに直接画像データを埋め込む方法の例については、コードライブラリ の「埋め込みアセットを使用したマルチモーダル入力 – Converse API (非ストリーミング)」の例を参照してください。

全体のペイロードが 25 MB を超える大きな画像ファイルまたは複数の画像ファイルをアップロードする場合は、Amazon S3 を使用します。画像入力に Amazon S3 URI リファレンスを使用する方法の十分な例については、コードライブラリ の「S3 URI を使用したマルチモーダル入力 – Converse API (非ストリーミング)」の例を参照してください。

注記

S3 を使用する場合は、Amazon Bedrock サービスにバケットとオブジェクトへのアクセス許可があることを確認します。

主な制限事項

次のリストは、画像理解モデルの現在の制限の概要を示しています。

  • 多言語画像理解: モデルは多言語画像および動画フレームに対する理解が限られており、シンプルなタスクで苦戦したりハルシネーションしたりする可能性があります。

  • 人物識別: Amazon Nova 2 モデルでは、画像、ドキュメント、動画に含まれる個人を識別または名前を付ける機能がサポートされていません。

  • 空間推論: Amazon Nova 2 モデルには、空間推論機能が限られています。正確な位置特定やレイアウト分析を必要とするタスクに手こずる可能性があります。

  • 画像と動画内の小さなテキスト: 画像または動画のテキストが小さすぎる場合、必要なコンテキストを維持しながら関連するセクションにトリミングして、画像内のテキストの相対サイズを増やすことを検討してください。

動画理解

動画理解とは、Amazon Nova が動画入力を処理し、次のようなさまざまな動画理解タスクを実行する能力を指します。

  • キーフレームの分析と動画コンテンツの要約

  • 動画セグメントに関する質問に回答する (動画質問への回答や動画 QA)

  • フレーム間のオブジェクトの検出と追跡

  • アクション、シーン、イベントの特定

  • 一時的なセグメンテーションを実行して特定の瞬間を見つける

  • 動画シーケンスの説明字幕または概要の生成

主要な技術情報

以下は、この機能を使用する際に留意すべき重要な技術情報です。

動画サイズの情報

Amazon Nova の動画理解機能は、マルチアスペクト比をサポートしています。すべての動画は、モデルに入力する前に元のアスペクト比に応じて拡大または縮小されることで歪みが生じた状態で、672 × 672 の正方形サイズにリサイズされます。

モデルは、動画の長さに基づいて動的サンプリング戦略を使用します。長さが 16 分以下の動画の場合、Amazon Nova 2 Lite は 1 フレーム/秒 (FPS) をサンプリングします。長さが 16 分を超える動画の場合、サンプリングされたフレームを一貫して 960 フレームに維持するためにサンプリングレートが低下し、それに応じてフレームサンプリングレートが異なります。この手法は、長い動画コンテンツと比較して短い動画において、より正確なシーンレベルの動画理解を実現するために開発されています。

動画の長さは、低モーションの場合は 1 時間未満、高モーションの場合は 16 分未満にすることをお勧めします。

動画の 4K バージョンおよびフル HD バージョンを分析する際に違いはありません。同様に、サンプリングレートは 1 FPS であるため、60 FPS 動画も 30 FPS 動画も結果に違いはありません。動画サイズに1 GB の制限があるため、必要な値を超える解像度や FPS を使用してもメリットはありません。これにより、そのサイズ制限に収まる動画の長さが制限されるため、1 GB を超える動画を前処理したいと考えることもあるでしょう。

動画トークン

動画の長さは生成されるトークン数に影響する主な要因です。おおよそのコストを計算するには、動画トークンの概算数に、使用されている特定モデルのトークンあたりの価格を掛けます。

次の表は、Amazon Nova 2 Lite の動画の長さあたりのフレームサンプリングとトークン使用率の概算を示します。

動画の長さ サンプルするフレーム サンプルレート (fps) おおよそのトークン
10 秒 10 1 2,880
30 秒 30 1 8,640
16 分 960 1 276,480
20 分 1200 1 345,600
30 分 1800 1 518,400
45 分 2700 1 777,600

動画理解の例

リクエストに直接動画データを埋め込む方法の例については、コードライブラリ の「埋め込みアセットを使用したマルチモーダル入力 – Converse API (非ストリーミング)」の例を参照してください。

動画入力に S3 URI リファレンスを使用する方法の例については、コードライブラリ の「S3 URI を使用したマルチモーダル入力 – Converse API (非ストリーミング)」の例を参照してください。

主な制限事項

以下は、モデルの精度とパフォーマンスが保証されない主なモデル制限です。

  • オーディオはサポートされない: Amazon Nova モデルは現在、ビジュアルフレームのみに基づいて動画コンテンツを処理および理解するようにトレーニングされています。動画内のオーディオトラックは処理または分析されません。

  • 多言語画像の理解: Amazon Nova モデルでは、多言語の画像や動画フレームの理解に限界があります。そのようなタスクでは手こずったり、ハルシネーションしたりする可能性があります。

  • 人物識別: Amazon Nova モデルでは、画像、ドキュメント、動画に含まれる個人を識別または名前を付ける機能がサポートされていません。モデルは、ビジュアルコンテンツ内の人物の名前やアイデンティティを提供しません。

  • 動画内の小さなテキスト: 画像または動画内のテキストが小さすぎる場合は、動画内のテキストの相対サイズを増やすことを検討してください。

  • 空間推論: Amazon Nova 2 モデルには、空間推論機能が限られています。動画内のオブジェクトの位置、距離、空間関係を正確に理解する必要があるタスクに苦労する可能性があります。

  • 不適切なコンテンツ: Amazon Nova モデルは、適正利用規約に違反する不適切または露骨な画像を処理しません。

  • ヘルスケア用途: これらのアーティファクトは機密性が高いため、Amazon Nova モデルはヘルスケアの画像や動画の一般的な分析を行うことができますが、それを使って複雑な診断スキャンなどの機密の医療画像を解釈することはお勧めしません。Amazon Nova モデルのレスポンスは、専門家による医療アドバイスに代わるものとして扱ってはなりません。

ドキュメント理解

Amazon Nova のドキュメント理解機能を使用すると、プロンプトの一部にドキュメント全体 (PDF、Word ファイル、スプレッドシートなど) を含めることができます。これにより、モデルはドキュメントの内容の分析、要約、情報の抽出、または質問への回答を行うことができます。

Amazon Nova 2 Lite は、これらのドキュメント内のテキスト要素とビジュアル要素 (グラフやテーブルなど) の両方を解釈できます。これにより、質問応答、要約、長いレポートやスキャンされたドキュメントの分析などのユースケースに対応できるようになります。

主要なドキュメント理解機能には、長いドキュメント用の非常に大きなコンテキストウィンドウ (100 万トークン) や、1 つのクエリで複数のドキュメントを処理する機能などがあります。

サポートされているドキュメントモダリティと形式

Amazon Nova は、次の 2 種類のドキュメント入力を区別します。

  • テキストベースのドキュメント (TXT、CSV、HTML、Markdown、DOC ファイルなど): これらは主にテキストコンテンツに対して処理されます。Amazon Nova は、これらのドキュメントのテキストからの情報を理解および抽出します。

  • メディアベースのドキュメント (PDF、DOCX など) には、複雑なレイアウト、画像、グラフ、または埋め込みグラフィックが含まれている場合があります。メディアベースのドキュメントの場合、Amazon Nova は、ビジョンベースの理解を使用して、グラフ、テーブル、図、スクリーンショットなどのビジュアルコンテンツをドキュメントのテキストとともに解釈します。

サポートされているファイル形式には、次のような一般的なドキュメントタイプが含まれます。

  • プレーンテキストファイルと構造化テキストファイル: CSV、TXT

  • スプレッドシート: XLS、XLSX、HTML、Markdown

  • 標準画像形式 (ドキュメント内の画像): PNG、JPG、GIF、WebP

  • ドキュメント形式: DOC、DOCX、PDF

  • CMYK や SVG などの画像エンコードを含む PDF はサポートされていません。

ドキュメントサイズの制限と使用ガイドライン

制約

制限

ドキュメントの最大数

リクエストごとに最大 5 つのドキュメント (直接アップロードと Amazon S3 の両方に適用)

テキストベースのドキュメントサイズ

各テキストドキュメントは 4.5 MB 以下である必要があります

メディアベースのドキュメントサイズ

PDF ファイルと DOCX ファイルの場合、個別のファイルサイズ制限はありません。直接アップロードを使用する場合、すべてのメディアドキュメントの合計サイズは 25 MB 以下である必要があります。Amazon S3 を使用する場合、すべてのメディアドキュメントの合計サイズは 2 GB 以下である必要があります。

サポートされていない PDF コンテンツ

CMYK カラープロファイルまたは SVG 画像を含む PDF はサポートされていません。

料金

Amazon Nova はトークンベースの料金を使用します。入力トークン (アタッチされたドキュメントを含む、送信するすべてのもの) と出力トークン (モデルのレスポンス) に対して料金が発生します。

PDF のトークンの見積もり: 計画では、標準の 8.5x11 インチ PDF ページ ≈ 2,560 個の入力トークンを想定します (この見積もりは、一般的なページのテキスト要素とビジュアル要素の両方をカバーします)。

例: API と S3 による Nova のドキュメント理解の使用

API 経由でこれを使用する方法の例については、コードライブラリ の「埋め込みアセットを使用したマルチモーダル入力 – Converse API (非ストリーミング)」の例を参照してください。

S3 経由でこれを使用する方法の例については、コードライブラリ の「S3 URI を使用したマルチモーダル入力 – Converse API (非ストリーミング)」の例を参照してください。