SageMaker 推論 - Amazon Nova

SageMaker 推論

カスタム Amazon Nova モデルが SageMaker 推論で利用可能になりました。SageMaker の Amazon Nova を使用すると、トレーニングされたカスタム Amazon Nova モデルから予測または推論の取得を開始できます。SageMaker の広範な ML インフラストラクチャとモデルデプロイオプションは、ML 推論のあらゆるニーズを満たすのに役立ちます。SageMaker 推論を使用すると、モデルのデプロイをスケールし、本番環境でモデルをより効果的に管理して、運用上の負担を軽減できます。

SageMaker には、低遅延推論を取得するためのリアルタイムエンドポイント、リクエストのバッチ用の非同期エンドポイントなど、さまざまな推論オプションが用意されています。ユースケースに適した推論オプションを活用することで、効率的なモデルのデプロイと推論を確保できます。SageMaker 推論の詳細については、「推論のためのモデルをデプロイする」を参照してください。

重要

SageMaker 推論では、フルランクのカスタムモデルと LoRA マージモデルのみがサポートされています。マージされていない LoRA モデルとベースモデルの場合は、Amazon Bedrock を使用します。

機能

SageMaker 推論の Amazon Nova モデルでは、以下の機能を使用できます。

モデル機能

  • テキスト生成

デプロイとスケーリング

  • カスタムインスタンス選択によるリアルタイムエンドポイント

  • Auto Scaling – トラフィックパターンに基づいてキャパシティを自動的に調整し、コストと GPU 使用率を最適化します。詳細については、「Amazon SageMaker モデルを自動スケーリングする」を参照してください。

  • リアルタイムトークン生成のためのストリーミング API サポート

モニタリングと最適化

  • モニタリングとアラートのための Amazon CloudWatch 統合

  • VPC 設定によるアベイラビリティーゾーンを考慮したレイテンシー最適化

開発用ツール

サポートされているモデルとインスタンス

SageMaker 推論エンドポイントを作成するときに、CONTEXT_LENGTHMAX_CONCURRENCY の 2 つの環境変数を設定してデプロイを設定できます。

  • CONTEXT_LENGTH – リクエストあたりのトークンの最大合計長 (入力 + 出力)

  • MAX_CONCURRENCY – エンドポイントが処理する同時リクエストの最大数

以下の表に、サポートされている Amazon Nova モデル、インスタンスタイプ、およびサポートされている設定を示します。MAX_CONCURRENCY 値は、各 CONTEXT_LENGTH 設定でサポートされている最大同時実行数を表します。

モデル インスタンスタイプ サポートされる設定
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 16

ml.g5.24xlarge CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 32
ml.g6.12xlarge

CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 16

ml.g6.24xlarge CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 32
ml.g6.48xlarge CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 32
ml.p5.48xlarge

CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000、MAX_CONCURRENCY: 1

Amazon Nova Lite ml.g6.48xlarge

CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 16

ml.p5.48xlarge

CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000、MAX_CONCURRENCY: 1

Nova 2 Lite ml.p5.48xlarge

CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000、MAX_CONCURRENCY: 1

注記

表示される MAX_CONCURRENCY 値は、各 CONTEXT_LENGTH 設定の上限です。同じ同時実行性でより短いコンテキスト長を使用することもできますが、これらの値を超えると、SageMaker エンドポイントの作成が失敗します。

例えば、Amazon Nova Micro を ml.g5.12xlarge で使用する場合:

  • CONTEXT_LENGTH=2000MAX_CONCURRENCY=32 → 有効

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=32 → 拒否 (コンテキスト長 8000 の場合、同時実行制限は 16 です)

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=4 → 有効

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=16 → 有効

  • CONTEXT_LENGTH=10000 → 拒否 (このインスタンスの最大コンテキストは 8000)

サポート対象の AWS リージョン

以下の表に、Amazon Nova モデルが SageMaker 推論で使用できる AWS リージョンを示します。

リージョン名 リージョンコード 利用可能な状況
米国東部 (バージニア北部) us–east–1 使用可能
米国西部 (オレゴン) us-west-2 使用可能

サポートされているコンテナイメージ

以下の表に、SageMaker 推論の Amazon Nova モデルのコンテナイメージ URI をリージョン別に一覧表示します。リージョンごとに、バージョニングされたタグ (v1.0.0) と最新のタグ (SM-Inference-latest) の 2 つのイメージタグを使用できます。本番デプロイでは、バージョニングされたタグを使用することをお勧めします。

リージョン コンテナイメージ URI
us–east–1

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest

us-west-2

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:v1.0.0

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

ベストプラクティス

SageMaker でのモデルのデプロイと管理に関するベストプラクティスについては、「SageMaker のベストプラクティス」を参照してください。

サポート

SageMaker 推論における Amazon Nova モデルの問題とサポートについては、コンソールまたは AWS アカウントマネージャーを通じて AWS サポートにお問い合わせください。