在 HyperPod Slurm 上运行训练作业

SageMaker HyperPod Recipes 支持向 s GPU/Trainium lurm 集群提交训练作业。在提交训练作业之前，请更新集群配置。使用下列方法之一更新集群配置：

修改 slurm.yaml
通过命令行覆盖集群配置

更新集群配置后，安装环境。

配置集群

要向 Slurm 集群提交训练作业，请指定特定于 Slurm 的配置。修改 slurm.yaml 以配置 Slurm 集群。以下是 Slurm 集群配置示例。您可以根据自己的训练需求修改此文件：


job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"

job_name_prefix：指定作业名称前缀，以轻松识别您向 Slurm 集群提交的内容。
slurm_create_submission_file_only：将此配置设置为 True 以进行试运行，帮助您进行调试。
stderr_to_stdout：指定是否将标准错误（stderr）重定向到标准输出（stdout）。
srun_args：自定义其他 srun 配置，例如排除特定的计算节点。有关更多信息，请参阅 srun 文档。
slurm_docker_cfg: SageMaker HyperPod 配方启动器启动一个 Docker 容器来运行你的训练作业。您可以在此参数中指定其他 Docker 参数。
container_mounts：为配方启动程序指定将挂载到容器中的卷，以便训练作业访问这些卷中的文件。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

特定于集群的配置

在 HyperPod k8s 上运行训练作业