HyperPod トレーニングオペレーターの使用 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HyperPod トレーニングオペレーターの使用

Amazon SageMaker HyperPod トレーニングオペレーターは、大規模な GPU クラスター間で分散トレーニングを効率的に管理することで、生成 AI モデルの開発を加速するのに役立ちます。これにより、インテリジェントな障害復旧、ハングジョブ検出、プロセスレベルの管理機能が導入され、トレーニングの中断を最小限に抑え、コストを削減できます。障害発生時にジョブを完全に再起動する必要がある従来のトレーニングインフラストラクチャとは異なり、このオペレーターはサージカルプロセスリカバリを実装してトレーニングジョブをスムーズに実行します。

また、オペレータは HyperPod のヘルスモニタリングとオブザーバビリティ機能と連携して、トレーニングの実行と、損失の急増やスループットの低下などの重要なメトリクスの自動モニタリングをリアルタイムで可視化します。コードを変更せずにシンプルな YAML 設定を使用して復旧ポリシーを定義できるため、回復不可能なトレーニング状態への迅速な対応と復旧が可能になります。これらのモニタリング機能と復旧機能は連携して、運用上のオーバーヘッドを最小限に抑えながら、最適なトレーニングパフォーマンスを維持します。

このトレーニングオペレーターには Kueue は必要ありませんが、クラスター管理者はジョブスケジューリング機能を強化するために Kueue をインストールして設定できます。詳細については、Kueue の公式ドキュメントを参照してください。

注記

トレーニングオペレータを使用するには、最新の HyperPod AMI リリースを使用する必要があります。アップグレードするには、UpdateClusterSoftware API オペレーションを使用します。 HyperPod タスクガバナンスを使用する場合は、最新バージョンでもある必要があります。

サポートバージョン

HyperPod トレーニングオペレーターは、Kubernetes、Kueue、HyperPod の特定のバージョンでのみ動作します。互換性のあるバージョンの完全なリストについては、以下のリストを参照してください。

  • サポートされている Kubernetes バージョン – 1.28、1.29、1.30、1.31、または 1.32

  • 推奨される Kueue バージョン – v.0.12.2 および v.0.12.3

  • 最新の HyperPod AMI リリース。最新の AMI リリースにアップグレードするには、UpdateClusterSoftware API を使用します。

  • PyTorch 2.4.0 – 2.7.1

HyperPod トレーニングオペレーターは、クラスター管理者がジョブスケジューリング機能を強化するために設定できる Kueue と互換性があります。詳細については、Kueue の公式ドキュメントを参照してください。

前提条件

HyperPod トレーニング演算子を使用するには、次の前提条件を満たしている必要があります。