翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod にモデルをデプロイする
Amazon SageMaker HyperPod は、トレーニングを超えて、Kubernetes の柔軟性とAWSマネージドサービスの運用上の優秀性を組み合わせた包括的な推論プラットフォームを提供するようになりました。モデルライフサイクル全体で同じ HyperPod コンピューティングを使用して、エンタープライズグレードの信頼性で機械学習モデルをデプロイ、スケーリング、最適化できます。
Amazon SageMaker HyperPod は、kubectl、Python SDK、Amazon SageMaker Studio UI、HyperPod CLI など、複数の方法でモデルをデプロイできる柔軟なデプロイインターフェイスを提供します。このサービスは、需要に基づいて自動的に調整する動的リソース割り当てを備えた高度なオートスケーリング機能を提供します。さらに、パフォーマンスを最適化するために time-to-first-token、GPU 使用率などの重要なメトリクスを追跡する包括的なオブザーバビリティとモニタリング機能を提供しています。
注記
GPU 対応インスタンスにデプロイする場合、マルチインスタンス GPU (MIG) テクノロジーを使用した GPU パーティショニングを使用して、1 つの GPU で複数の推論ワークロードを実行できます。これにより、GPU の使用率とコストの最適化が向上します。GPU パーティショニングの設定の詳細については、「」を参照してくださいAmazon SageMaker HyperPod での GPU パーティションの使用 HyperPod。
トレーニングと推論の統合インフラストラクチャ
トレーニングワークロードと推論ワークロードの間でコンピューティングリソースをシームレスに移行することで、GPU 使用率を最大化します。これにより、運用の継続性を維持しながら総所有コストを削減できます。
エンタープライズ対応デプロイオプション
Amazon SageMaker JumpStart のオープンウェイトモデルやゲートモデル、Amazon S3 および Amazon FSx のカスタムモデルなど、複数のソースからモデルをデプロイできます。単一ノードとマルチノードの両方の推論アーキテクチャをサポートします。
マネージド階層型キーバリュー (KV) キャッシュとインテリジェントルーティング
KV キャッシュは、以前のトークンを処理した後、事前に計算されたキーと値のベクトルを保存します。次のトークンが処理されると、ベクトルを再計算する必要はありません。2 層キャッシュアーキテクチャにより、低レイテンシーのローカル再利用に CPU メモリを使用する L1 キャッシュと、Redis を活用してスケーラブルなノードレベルのキャッシュ共有を可能にする L2 キャッシュを設定できます。
インテリジェントルーティングは受信リクエストを分析し、関連するキャッシュされたキーと値のペアを持つ可能性が最も高い推論インスタンスに転送します。システムはリクエストを調べ、次のいずれかのルーティング戦略に基づいてルーティングします。
prefixaware— 同じプロンプトプレフィックスを持つ後続のリクエストは、同じインスタンスにルーティングされます。kvaware— 受信リクエストは、KV キャッシュヒット率が最も高いインスタンスにルーティングされます。session— 同じユーザーセッションからのリクエストは、同じインスタンスにルーティングされます。roundrobin— KV キャッシュの状態を考慮せずにリクエストを均等に分散します。
この機能を有効にする方法の詳細については、「」を参照してくださいパフォーマンスを向上させるために KV キャッシュとインテリジェントルーティングを設定する。
KV キャッシュの組み込み L2 キャッシュ階層型ストレージのサポート
HyperPod は、既存の KV キャッシュインフラストラクチャに基づいて、階層型ストレージを Redis とともに追加の L2 バックエンドオプションとして統合するようになりました。組み込みの SageMaker マネージド階層型ストレージを使用すると、パフォーマンスが向上します。この機能強化により、キャッシュオフロードのよりスケーラブルで効率的なオプションが提供され、特に高スループットの LLM 推論ワークロードに役立ちます。この統合は、既存の vLLM モデルサーバーおよびルーティング機能との互換性を維持しながら、パフォーマンスを向上させます。
注記
重要なサービスの可用性を提供するために、特定の日常的な運用メトリクスを収集します。これらのメトリクスの作成は完全に自動化されており、基盤となるモデル推論ワークロードの人間によるレビューは含まれません。これらのメトリクスは、デプロイオペレーション、リソース管理、エンドポイント登録に関連しています。