機能サポートされているモデルとインスタンスサポート対象の AWS リージョンサポートされているコンテナイメージベストプラクティスサポート

SageMaker 推論

カスタム Amazon Nova モデルが SageMaker 推論で利用可能になりました。SageMaker の Amazon Nova を使用すると、トレーニングされたカスタム Amazon Nova モデルから予測または推論の取得を開始できます。SageMaker の広範な ML インフラストラクチャとモデルデプロイオプションは、ML 推論のあらゆるニーズを満たすのに役立ちます。SageMaker 推論を使用すると、モデルのデプロイをスケールし、本番環境でモデルをより効果的に管理して、運用上の負担を軽減できます。

SageMaker には、低遅延推論を取得するためのリアルタイムエンドポイント、リクエストのバッチ用の非同期エンドポイントなど、さまざまな推論オプションが用意されています。ユースケースに適した推論オプションを活用することで、効率的なモデルのデプロイと推論を確保できます。SageMaker 推論の詳細については、「推論のためのモデルをデプロイする」を参照してください。

重要

SageMaker 推論では、フルランクのカスタムモデルと LoRA マージモデルのみがサポートされています。マージされていない LoRA モデルとベースモデルの場合は、Amazon Bedrock を使用します。

機能

SageMaker 推論の Amazon Nova モデルでは、以下の機能を使用できます。

モデル機能

テキスト生成

デプロイとスケーリング

カスタムインスタンス選択によるリアルタイムエンドポイント
Auto Scaling – トラフィックパターンに基づいてキャパシティを自動的に調整し、コストと GPU 使用率を最適化します。詳細については、「Amazon SageMaker モデルを自動スケーリングする」を参照してください。
リアルタイムトークン生成のためのストリーミング API サポート

モニタリングと最適化

モニタリングとアラートのための Amazon CloudWatch 統合
VPC 設定によるアベイラビリティーゾーンを考慮したレイテンシー最適化

開発用ツール

AWS CLI サポート – 詳細については、「SageMaker の AWS CLI コマンドリファレンス」を参照してください。
SDK サポートによるノートブックの統合

サポートされているモデルとインスタンス

SageMaker 推論エンドポイントを作成するときに、CONTEXT_LENGTH と MAX_CONCURRENCY の 2 つの環境変数を設定してデプロイを設定できます。

CONTEXT_LENGTH – リクエストあたりのトークンの最大合計長 (入力 + 出力)
MAX_CONCURRENCY – エンドポイントが処理する同時リクエストの最大数

以下の表に、サポートされている Amazon Nova モデル、インスタンスタイプ、およびサポートされている設定を示します。MAX_CONCURRENCY 値は、各 CONTEXT_LENGTH 設定でサポートされている最大同時実行数を表します。

モデル	インスタンスタイプ	サポートされる設定	FP8 量子化が必要
Amazon Nova Micro	ml.g5.12xlarge	CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 6	いいえ
	ml.g5.24xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8	いいえ
	ml.g6e.xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2	いいえ
	ml.g6e.2xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2	いいえ
	ml.g6e.4xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 4	いいえ
	ml.g6.12xlarge	CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 6	いいえ
	ml.g6.24xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8	いいえ
	ml.g6.48xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 12	いいえ
	ml.p5.48xlarge	CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000、MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000、MAX_CONCURRENCY: 8	いいえ
Amazon Nova Lite	ml.g6.12xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2	はい - デフォルトで有効
	ml.g6.24xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 4	はい - デフォルトで有効
	ml.g6.48xlarge	CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 16 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8	いいえ
	ml.p5.48xlarge	CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 60000、MAX_CONCURRENCY: 8	いいえ
Nova 2 Lite	ml.g6.48xlarge	CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8	はい - デフォルトで有効
Nova 2 Lite	ml.p5.48xlarge	CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000、MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000、MAX_CONCURRENCY: 8	いいえ

注記

FP8 量子化が必要なインスタンスでは、デフォルトで有効になります。

表示される MAX_CONCURRENCY 値は、各 CONTEXT_LENGTH 設定の上限です。同じ同時実行性でより短いコンテキスト長を使用することもできますが、これらの値を超えると、SageMaker エンドポイントの作成が失敗します。

例えば、Amazon Nova Micro を ml.g5.12xlarge で使用する場合:

CONTEXT_LENGTH=2000、MAX_CONCURRENCY=12 → 有効
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=12 → 拒否 (コンテキスト長 8000 の場合、同時実行制限は 6 です)
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=4 → 有効
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=6 → 有効
CONTEXT_LENGTH=10000 → 拒否 (このインスタンスの最大コンテキスト長は 8000 であるため)

サポート対象の AWS リージョン

以下の表に、Amazon Nova モデルが SageMaker 推論で使用できる AWS リージョンを示します。

リージョン名	リージョンコード	可用性
米国東部 (バージニア北部)	us-east-1	使用可能
米国西部 (オレゴン)	us-west-2	使用可能

サポートされているコンテナイメージ

以下の表に、SageMaker 推論の Amazon Nova モデルのコンテナイメージ URI をリージョン別に一覧表示します。

リージョン	コンテナイメージ URI
us-east-1	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest`
us-west-2	`176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest`

ベストプラクティス

SageMaker でのモデルのデプロイと管理に関するベストプラクティスについては、「SageMaker のベストプラクティス」を参照してください。

サポート

SageMaker 推論における Amazon Nova モデルの問題とサポートについては、コンソールまたは AWS アカウントマネージャーを通じて AWS サポートにお問い合わせください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

反復トレーニング

はじめに