

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする
<a name="sagemaker-hyperpod-slurm"></a>

SageMaker HyperPod での Slurm サポートを使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。 AWS Trainium や NVIDIA A100 や H100 Graphical Processing Units (GPU) などの何千ものアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と保守に伴う差別化されていない重リフトを排除することで、FMs の開発を加速します。 H100 GPUs アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。さらに、SageMaker HyperPod でのライフサイクル設定のサポートにより、ニーズに最適なコンピューティング環境をカスタマイズし、Amazon SageMaker AI 分散トレーニングライブラリを使用して設定することで、 AWSで最適なパフォーマンスを実現できます。

**クラスターを操作する**

SageMaker HyperPod クラスターは、コンソールユーザーインターフェイス (UI) を介してグラフィカルに、コマンド AWS ラインインターフェイス (CLI) または を介してプログラムで作成、設定、保守できます AWS SDK for Python (Boto3)。Amazon VPC を使用すると、クラスターネットワークを保護でき、最速のスループットを提供する Amazon FSx for Lustre などの VPC 内のリソースによってクラスターを設定することもできます。さらに、クラスターインスタンスグループにさまざまな IAM ロールを付与し、クラスターリソースとユーザーが操作できるアクションを制限することもできます。詳細については[SageMaker HyperPod Slurm クラスターオペレーション](sagemaker-hyperpod-operate-slurm.md)を参照してください。

**ML 環境を設定する**

SageMaker HyperPod は、HyperPod クラスターに ML 環境をセットアップする [SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami) を実行します。ユースケースをサポートするライフサイクルスクリプトを提供することにより、DLAMI に追加のカスタマイズを設定できます。ライフサイクルスクリプトの設定方法の詳細については、「[SageMaker HyperPod の使用開始](smcluster-getting-started-slurm.md)」と「[ライフサイクルスクリプトを使用して SageMaker HyperPod クラスターをカスタマイズする](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)」を参照してください。

**ジョブをスケジュールする**

HyperPod クラスターを正常に作成すると、クラスターユーザーはクラスターノード (ヘッドノードやコントローラーノード、ログインノード、ワーカーノードなど) にログインし、機械学習ワークロードを実行するジョブをスケジュールできます。詳細については[SageMaker HyperPod クラスター上のジョブ](sagemaker-hyperpod-run-jobs-slurm.md)を参照してください。

**ハードウェア障害からの回復性**

SageMaker HyperPod はクラスターノードでヘルスチェックを実行し、ワークロード自動再開機能を提供します。HyperPod のクラスター回復性機能を使用すると、障害のあるノードが、ノード数が 16 個を超えるクラスター内の正常なノードに置き換えられた後、最後に保存したチェックポイントからワークロードを再開できます。詳細については[SageMaker HyperPod クラスターの回復性](sagemaker-hyperpod-resiliency-slurm.md)を参照してください。

**クラスターをログ記録および管理する**

SageMaker HyperPod リソース使用率メトリクスとライフサイクルログは Amazon CloudWatch にあり、タグ付けすることにより SageMaker HyperPod リソースを管理できます。`CreateCluster` API を実行するたびに、個別のログストリームが `<cluster-name>-<timestamp>` 形式の名前で作成されます。ログストリームでは、ホスト名、失敗したライフサイクルスクリプトの名前、`stdout` や `stderr` などの失敗したスクリプトからの出力を確認できます。詳細については、「[SageMaker HyperPod クラスター管理](sagemaker-hyperpod-cluster-management-slurm.md)」を参照してください。

**SageMaker AI ツールとの互換性**

SageMaker HyperPod を使用すると、SageMaker AI 分散データ並列処理 (SMDDP) ライブラリなど、SageMaker AI が提供する AWS 最適化された集合通信ライブラリを使用してクラスターを設定できます。 [SageMaker ](data-parallel.md) SMDDP ライブラリは、NVIDIA A100 GPU を搭載した最もパフォーマンスの高い SageMaker AI 機械学習インスタンスの AWS コンピューティングおよびネットワークインフラストラクチャに最適化された`AllGather`オペレーションを実装します。 GPUs 詳細については[HyperPod で Slurm を使用して分散トレーニングワークロードを実行する](sagemaker-hyperpod-run-jobs-slurm-distributed-training-workload.md)を参照してください。

**UltraServer を使用したインスタンスの配置**

SageMaker AI は、別の UltraServer を使用する前に、UltraServer 内のすべてのインスタンスを使用するためのベストエフォート戦略に基づいて、UltraServer 内のインスタンスにジョブを自動的に割り当てます。例えば、14 個のインスタンスをリクエストし、トレーニングプランに 2 個の UltraServer がある場合、SageMaker AI は最初の UltraServer のすべてのインスタンスを使用します。20 個のインスタンスをリクエストし、トレーニングプランに 2 個の UltraServer がある場合、SageMaker AI は最初の UltraServer の 17 個のインスタンスすべてを使用してから、2 番目の UltraServer の 3 個のインスタンスを使用します。

**Topics**
+ [SageMaker HyperPod の使用開始](smcluster-getting-started-slurm.md)
+ [SageMaker HyperPod Slurm クラスターオペレーション](sagemaker-hyperpod-operate-slurm.md)
+ [ライフサイクルスクリプトを使用して SageMaker HyperPod クラスターをカスタマイズする](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)
+ [SageMaker HyperPod マルチヘッドノードのサポート](sagemaker-hyperpod-multihead-slurm.md)
+ [SageMaker HyperPod クラスター上のジョブ](sagemaker-hyperpod-run-jobs-slurm.md)
+ [SageMaker HyperPod クラスターリソースのモニタリング](sagemaker-hyperpod-cluster-observability-slurm.md)
+ [SageMaker HyperPod クラスターの回復性](sagemaker-hyperpod-resiliency-slurm.md)
+ [Slurm を使用した拡張クラスターオペレーションの継続的なプロビジョニング](sagemaker-hyperpod-scaling-slurm.md)
+ [SageMaker HyperPod クラスター管理](sagemaker-hyperpod-cluster-management-slurm.md)
+ [SageMaker HyperPod のよくある質問](sagemaker-hyperpod-faq-slurm.md)