翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
HyperPod Slurm でのトレーニングジョブの実行
SageMaker HyperPod レシピは、GPU/Trainium スラムクラスターへのトレーニングジョブの送信をサポートしています。トレーニングジョブを送信する前に、クラスター設定を更新します。クラスター設定を更新するには、次のいずれかの方法を使用します。
-
slurm.yaml
の変更 -
コマンドラインで上書きする
クラスター設定を更新したら、 環境をインストールします。
クラスターを設定する
Slurm クラスターにトレーニングジョブを送信するには、Slurm 固有の設定を指定します。を変更slurm.yaml
して Slurm クラスターを設定します。以下は、Slurm クラスター設定の例です。このファイルは、独自のトレーニングニーズに合わせて変更できます。
job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
-
job_name_prefix
: ジョブ名のプレフィックスを指定すると、Slurm クラスターへの送信を簡単に識別できます。 -
slurm_create_submission_file_only
: デバッグに役立つように、ドライランではこの設定を True に設定します。 -
stderr_to_stdout
: 標準エラー (stderr) を標準出力 (stdout) にリダイレクトするかどうかを指定します。 -
srun_args
: 特定のコンピューティングノードの除外など、追加のスラン設定をカスタマイズします。詳細については、スランドキュメントを参照してください。 -
slurm_docker_cfg
: SageMaker HyperPod レシピランチャーが Docker コンテナを起動してトレーニングジョブを実行します。このパラメータ内で追加の Docker 引数を指定できます。 -
container_mounts
: レシピランチャーのコンテナにマウントするボリュームを指定し、トレーニングジョブがそれらのボリューム内のファイルにアクセスできるようにします。