HyperPod Slurm でのトレーニングジョブの実行

SageMaker HyperPod レシピは、GPU/Trainium Slurm クラスターへのトレーニングジョブの送信をサポートしています。トレーニングジョブを送信する前に、クラスター設定を更新します。クラスター設定を更新するには、次のいずれかの方法を使用します。

slurm.yaml の変更
コマンドラインで上書きする

クラスター設定を更新したら、環境をインストールします。

クラスターを設定する

Slurm クラスターにトレーニングジョブを送信するには、Slurm 固有の設定を指定します。slurm.yaml を変更して Slurm クラスターを設定します。Slurm クラスターの設定の例は、次のとおりです。このファイルは、独自のトレーニングニーズに合わせて変更できます。


job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"

job_name_prefix: ジョブ名のプレフィックスを指定すると、Slurm クラスターへの送信を簡単に識別できます。
slurm_create_submission_file_only: デバッグに役立つよう0に、ドライランではこの設定を True に設定します。
stderr_to_stdout: 標準エラー (stderr) を標準出力 (stdout) にリダイレクトするかどうかを指定します。
srun_args: 特定のコンピューティングノードの除外など、追加の srun 設定をカスタマイズします。詳細については、srun に関するドキュメントを参照してください。
slurm_docker_cfg: SageMaker HyperPod レシピランチャーが Docker コンテナを起動してトレーニングジョブを実行します。このパラメータ内で追加の Docker 引数を指定できます。
container_mounts: レシピランチャーのコンテナにマウントするボリュームを指定し、トレーニングジョブがそれらのボリューム内のファイルにアクセスできるようにします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

クラスター固有の設定

HyperPod k8s でのトレーニングジョブの実行