SageMaker HyperPod EKS での Auto Scaling - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod EKS での Auto Scaling

Amazon SageMaker HyperPod は、EKS オーケストレーションで作成されたクラスター用のマネージド Karpenter ベースのノードオートスケーリングソリューションを提供します。Karpenter は、クラスターのスケーリングとコスト効率を最適化AWSする、 によって構築されたオープンソースの Kubernetes ノードライフサイクルマネージャーです。セルフマネージド Karpenter デプロイとは異なり、SageMaker HyperPod のマネージド実装は、統合された耐障害性と回復力を提供しながら、Karpenter コントローラーのインストール、設定、保守に伴う運用上のオーバーヘッドを排除します。このマネージドオートスケーリングソリューションは、HyperPod の継続的プロビジョニング機能に基づいて構築されており、自動障害処理と復旧により、トレーニングおよび推論ワークロードのコンピューティングリソースを効率的にスケールできます。

お支払いいただくのは、使用分の料金だけです。SageMaker HyperPod の標準料金に従って、オートスケーリングが自動的にプロビジョンするすべてのコンピューティングインスタンスに対して料金が発生します。詳細については、「Amazon SageMaker の料金」を参照してください。

HyperPod で Karpenter ベースのオートスケーリングを有効にすると、以下にアクセスできます。

  • サービスマネージドライフサイクル - HyperPod は Karpenter のインストール、更新、メンテナンスを処理し、運用上のオーバーヘッドを排除します。

  • ジャストインタイムプロビジョニング - Karpenter は保留中のポッドを監視し、オンデマンドプールからワークロードに必要なコンピューティングをプロビジョンします。

  • ゼロにスケールする - 専用コントローラーインフラストラクチャを維持せずに、ノードをゼロにスケールダウンします。

  • ワークロード対応ノードの選択 - Karpenter は、ポッドの要件、アベイラビリティーゾーン、料金に基づいて最適なインスタンスタイプを選択し、コストを最小限に抑えます。

  • 自動ノード統合 - Karpenter は、最適化の機会についてクラスターを定期的に評価し、ワークロードを移行して使用率の低いノードを排除します。

  • 統合レジリエンス - HyperPod の組み込み耐障害性とノード復旧メカニズムを活用します。

以下のトピックでは、Karpenter で HyperPod オートスケーリングを有効にする方法について説明します。

前提条件

  • HyperPod クラスターで継続的プロビジョニングが有効になっていること。SageMaker HyperPod クラスターの作成時に --node-provisioning-modeContinuous に設定して、継続的プロビジョニングを有効にしていること。詳細については、「Amazon EKS での拡張クラスターオペレーションの継続的プロビジョニング」を参照してください。

  • Health Monitoring Agent バージョン 1.0.742.0_1.0.241.0 以降がインストールされていること。HyperPod クラスターのオペレーションとモニタリングに必要です。適切なクラスターヘルスレポートとノードライフサイクル管理を確保するために、Karpenter オートスケーリングを有効にする前にエージェントを設定する必要があります。詳細については、「ヘルスモニタリングシステム」を参照してください。

  • Amazon EKS クラスターで Karpenter が実行されている場合にのみ、Karpenter NodePoolNodeClaim のバージョンは v1 である必要があります。

  • NodeRecovery を自動に設定します。詳細については、「自動ノード復旧」を参照してください。