翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# HyperPod トレーニングオペレーターの使用
<a name="sagemaker-eks-operator"></a>

 Amazon SageMaker HyperPod トレーニングオペレーターを使用すると、大規模な GPU クラスター間で分散トレーニングを効率的に管理できるため、生成 AI モデルの開発の加速につながります。インテリジェントな障害復旧、ハングしたジョブの検出、プロセスレベルの管理機能が導入されており、トレーニングの中断を最小限に抑え、コストを削減できます。障害発生時にジョブを完全に再起動する必要がある従来のトレーニングインフラストラクチャとは異なり、このオペレーターは、トレーニングジョブをスムーズに実行するために精密なプロセスリカバリを実装します。

 このオペレーターは HyperPod のヘルスモニタリングおよびオブザーバビリティ機能と連携し、トレーニング実行のリアルタイム可視化と、ロススパイクやスループット低下などの重要なメトリクスの自動モニタリングを提供します。コードを変更することなく、シンプルなYAML構成でリカバリポリシーを定義できるため、回復不能なトレーニング状態に迅速に対応し、復旧できます。これらのモニタリング機能とリカバリ機能は連携して動作し、運用オーバーヘッドを最小限に抑えながら、最適なトレーニングパフォーマンスを維持できます。

 このトレーニングオペレーターには Kueue は必須ではありませんが、クラスター管理者は Kueue をインストールして設定することで、ジョブスケジューリング機能を強化できます。詳細については、[Kueueの公式ドキュメント](https://kueue.sigs.k8s.io/docs/overview/)を参照してください。

**注記**  
トレーニングオペレーターを使用するには、最新の [ HyperPod AMI リリース](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-release-ami-eks.html)を使用する必要があります。アップグレードするには、[UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API オペレーションを使用します。[HyperPod タスクガバナンス](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-operate-console-ui-governance.html)を使用する場合も、最新バージョンである必要があります。

## サポートバージョン
<a name="sagemaker-eks-operator-supported-versions"></a>

 HyperPod トレーニングオペレーターは、Kubernetes、Kueue、HyperPod の特定のバージョンでのみ動作します。互換性のあるバージョンの完全なリストについては、以下のリストを参照してください。
+ サポートされている Kubernetes バージョン – 1.28、1.29、1.30、1.31、1.32、1.33
+ 推奨される Kueue バージョン – [ v.0.12.2](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.2) および [v.0.12.3](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.3)
+ 最新の HyperPod AMI リリース。最新の AMI リリースにアップグレードするには、[UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API を使用します。
+ [PyTorch 2.4.0～2.7.1](https://github.com/pytorch/pytorch/releases)

**注記**  
当社は、重要なサービスの可用性を提供するために、特定の日常的な集約および匿名化された運用メトリクスを収集します。これらのメトリクスの作成は完全に自動化されており、基盤となるモデルトレーニングワークロードの人間によるレビューは含まれません。これらのメトリクスは、ジョブオペレーション、リソース管理、重要なサービス機能に関連しています。