本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用CloudFormation模板创建 SageMaker HyperPod 集群
您可以使用的 CloudFormation 模板创建 SageMaker HyperPod 集群 HyperPod。必须安装AWS CLI才能继续。
在控制台中配置资源并使用进行部署 CloudFormation
您可以使用配置资源AWS 管理控制台并使用 CloudFormation模板进行部署。
执行以下步骤。
-
不要@@ 选择 “提交”,而是在教程结尾处选择 “下载 CloudFormation 模板参数” 开始 SageMaker HyperPod 使用 SageMaker AI 控制台。本教程包含成功创建集群所需的重要配置信息。
重要
如果您选择提交,则在删除集群之前,无法部署同名集群。
选择下载 CloudFormation 模板参数后,页面右侧将出现 “使用配置文件使用该AWS CLI窗口创建集群”。
-
在使用配置文件通过 AWS CLI 创建集群窗口上,选择下载配置参数文件。该文件将下载到您的计算机上。可以根据需要编辑配置 JSON 文件,如果不需要进行更改,也可以将其保持原样。
-
在终端,导航到参数文件
file://params.json的位置。 -
运行 create-stack AWS CLI 命令部署 CloudFormation 堆栈,该堆栈将预配置的资源并创建集群。 HyperPod
aws cloudformation create-stack --stack-namemy-stack--template-urlhttps://aws-sagemaker-hyperpod-cluster-setup.amazonaws.com/templates-slurm/main-stack-slurm-based-template.yaml--parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM -
要查看资源配置的状态,请导航到CloudFormation 控制台
。 集群创建完成后,在 SageMaker HyperPod控制台主窗格的 “集群” 下查看新集群。您可以查看状态栏下显示的状态。
-
集群状态变为
InService后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业。
使用配置和部署资源 CloudFormation
您可以使用的 CloudFormation 模板配置和部署资源 SageMaker HyperPod。
执行以下步骤。
-
SageMaker HyperPod 从sagemaker-hyperpod-cluster-setup
GitHub 存储库下载的 CloudFormation 模板。 -
运行 create-stack AWS CLI 命令部署 CloudFormation 堆栈,该堆栈将预配置的资源并创建集群。 HyperPod
aws cloudformation create-stack --stack-namemy-stack--template-urlURL_of_the_file_that_contains_the_template_body--parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM -
要查看资源预置的状态,请导航到 CloudFormation 控制台。
集群创建完成后,在 SageMaker HyperPod控制台主窗格的 “集群” 下查看新集群。您可以查看状态栏下显示的状态。
-
集群状态变为
InService后,即可开始登录集群节点。