本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 HyperPod Slurm 上运行训练作业
SageMaker HyperPod Recipes 支持向 s GPU/Trainium lurm 集群提交训练作业。在提交训练作业之前,请更新集群配置。使用下列方法之一更新集群配置:
-
修改
slurm.yaml -
通过命令行覆盖集群配置
更新集群配置后,安装环境。
配置集群
要向 Slurm 集群提交训练作业,请指定特定于 Slurm 的配置。修改 slurm.yaml 以配置 Slurm 集群。以下是 Slurm 集群配置示例。您可以根据自己的训练需求修改此文件:
job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
-
job_name_prefix:指定作业名称前缀,以轻松识别您向 Slurm 集群提交的内容。 -
slurm_create_submission_file_only:将此配置设置为 True 以进行试运行,帮助您进行调试。 -
stderr_to_stdout:指定是否将标准错误(stderr)重定向到标准输出(stdout)。 -
srun_args:自定义其他 srun 配置,例如排除特定的计算节点。有关更多信息,请参阅 srun 文档。 -
slurm_docker_cfg: SageMaker HyperPod 配方启动器启动一个 Docker 容器来运行你的训练作业。您可以在此参数中指定其他 Docker 参数。 -
container_mounts:为配方启动程序指定将挂载到容器中的卷,以便训练作业访问这些卷中的文件。