視覚理解のプロンプトのベストプラクティス - Amazon Nova

視覚理解のプロンプトのベストプラクティス

Amazon Nova モデルファミリーには、モデルが画像や動画を理解して分析できるようにする新しい視覚機能が搭載されているため、マルチモーダルインタラクションのエキサイティングな機会を実現することができます。次のセクションでは、Amazon Nova で画像および動画を操作するためのガイドラインの概要について説明します。検討をお勧めするベストプラクティス、コード例、関連する制限事項が含まれます。

提供する画像や動画の品質が高くなればなるほど、モデルがメディアファイル内の情報を正確に理解する可能性が高くなります。確実に正確な結果を得るには、画像や動画が明確で余分なぼやけやピクセル化がないことを確認してください。画像や動画フレームに重要なテキスト情報が含まれている場合、テキストが読みやすくて小さすぎないことを確認してください。テキスト拡大のみのために、主要なビジュアルコンテキストをトリミングすることは避けてください。

Amazon Nova モデルでは、ペイロードに 1 つの動画を含めることができます。base64 形式または Amazon S3 URI を介して提供できます。base64 メソッドを使用する際、全体的なペイロードサイズは 25 MB 未満である必要があります。ただし、画像、動画、文書の理解には Amazon S3 URI を指定できます。Amazon S3 を使用すると、ペイロード全体のサイズ制限に制約されることなく、より大きなファイルや複数のメディアファイルに対してモデルを活用できます。Amazon Nova は、指定された指示に基づいて入力動画を分析して質問に回答、動画の分類、動画の情報の要約ができます。

Amazon Nova モデルを使用すると、ペイロードに複数の画像を含めることができます。ペイロードサイズの合計は 25 MB を超えることはできません。Amazon Nova モデルは、指定された指示に基づいて渡された画像を分析して質問に回答、画像の分類、画像の要約ができます。

画像情報

メディアファイルタイプ

サポートされるファイル形式

入力方法

イメージ

PNG、JPG、JPEG、GIF、WebP

Base64 および Amazon S3 URI

動画情報

形式

MIME タイプ

動画エンコーディング

MKV

video/x-matroska

H.264

MOV

video/quicktime

H.264

H.265

ProRES

MP4

video/mp4

DIVX/XVID

H.264

H.265

J2K (JPEG 2000)

MPEG-2

MPEG-4 Part 2

VP9

WEBM

video/webm

VP8

VP9

FLV

video/x-flv

FLV1

MPEG

video/mpeg

MPEG-1

MPG

video/mpg

MPEG-1

WMV

video/wmv

MSMPEG4v3 (MP43)

3GPP

video/3gpp

H.264

動画が base-64 (サイズ制約に適合する限り) として渡されるか、Amazon S3 ロケーションを介して渡されるかを問わず、動画入力トークン数に違いはありません。

3gp ファイル形式の場合、API リクエストで渡される「format」フィールドは「three_gp」の形式である必要があることに注意してください。

Amazon S3 を使用する際、「コンテンツタイプ」メタデータが動画の正しい MIME タイプに設定されていることを確認してください。

ロングモーション動画とハイモーション動画

このモデルは、1 秒あたり 1 フレーム (FPS) のベースで動画フレームをサンプリングすることで動画理解を行います。動画の詳細のキャプチャと、使用する入力トークンの消費のバランスであり、コスト、レイテンシー、動画の最大長に影響します。一般的なユースケースでは 1 秒ごとに 1 つのイベントをサンプリングするだけで十分ですが、スポーツ動画などのハイモーション動画を伴う一部のユースケースでは、うまく機能しない場合があります。

長い動画を処理するため、16 分を超える動画に対してはサンプリングレートが固定 960 フレームに落とされ、Amazon Nova Lite と Amazon Nova Pro 用に動画全体の長さに対し均等に割り振られます。つまり、動画が 16 分を超えると、FPS が低くなってキャプチャされる詳細が少なくなります。これにより、長い動画の要約などのユースケースが可能になりますが、詳細が重要なハイモーション動画では問題が悪化します。Amazon Nova Premier では、1 FPS サンプリングレートが最大 3,200 フレームまで適用されます。

多くの場合、長い動画では前処理ステップおよび複数の呼び出しを使用して、1 FPS のサンプリングを取得できます。動画は小さなセグメントに分割でき、各セグメントはモデルのマルチモデル機能を使用して分析されます。レスポンスは集計され、Text-to-text を使用する最終ステップで最終的な回答が生成されます。この方法で動画をセグメント化すると、コンテキストが失われる可能性があることに注意してください。RAG ユースケースのチャンキングのトレードオフに似ており、同じ緩和手法 (スライディングウィンドウなど) の多くはそのまま使えます。

動画をセグメント化すると、分析が並行して行われるためレイテンシーも減少する可能性がありますが、コストに影響する入力トークンが大幅に増加する可能性があることに注意してください。

レイテンシー

動画のサイズを大きくすることができます。Amazon S3 にアップロードして呼び出しペイロードを非常に効果的にすることで、最大 1 GB のファイルを処理する手段を用意していますが、モデルは引き続き大量のトークンを処理する必要があります。Invoke や Converse などの同期 Amazon Bedrock 呼び出しを使用している場合、SDK に適切なタイムアウトが設定されていることを確認してください。

いずれにせよ、レイテンシーが要因である場合は Amazon S3 URI が推奨されます。前のセクションで説明された動画のセグメント化は、別の戦略です。高解像度の動画や高フレームレートの動画を前処理してサイズダウンすると、サービスサイズの帯域幅および処理も節約でき、レイテンシーが減少されます。