HyperPod Slurm でのトレーニングジョブの実行 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HyperPod Slurm でのトレーニングジョブの実行

SageMaker HyperPod レシピは、GPU/Trainium スラムクラスターへのトレーニングジョブの送信をサポートしています。トレーニングジョブを送信する前に、クラスター設定を更新します。クラスター設定を更新するには、次のいずれかの方法を使用します。

  • slurm.yaml の変更

  • コマンドラインで上書きする

クラスター設定を更新したら、 環境をインストールします。

クラスターを設定する

Slurm クラスターにトレーニングジョブを送信するには、Slurm 固有の設定を指定します。を変更slurm.yamlして Slurm クラスターを設定します。以下は、Slurm クラスター設定の例です。このファイルは、独自のトレーニングニーズに合わせて変更できます。

job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
  1. job_name_prefix: ジョブ名のプレフィックスを指定すると、Slurm クラスターへの送信を簡単に識別できます。

  2. slurm_create_submission_file_only: デバッグに役立つように、ドライランではこの設定を True に設定します。

  3. stderr_to_stdout: 標準エラー (stderr) を標準出力 (stdout) にリダイレクトするかどうかを指定します。

  4. srun_args: 特定のコンピューティングノードの除外など、追加のスラン設定をカスタマイズします。詳細については、スランドキュメントを参照してください。

  5. slurm_docker_cfg: SageMaker HyperPod レシピランチャーが Docker コンテナを起動してトレーニングジョブを実行します。このパラメータ内で追加の Docker 引数を指定できます。

  6. container_mounts: レシピランチャーのコンテナにマウントするボリュームを指定し、トレーニングジョブがそれらのボリューム内のファイルにアクセスできるようにします。