建立 SageMaker HyperPod 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 SageMaker HyperPod 叢集

在設定所有必要的資源並將指令碼上傳到 Amazon S3 儲存貯體之後,您可以建立叢集。

  1. 若要建立叢集,請執行 create-cluster AWS CLI 命令。此程序最長可能需要 15 分鐘的時間才能完成。

    aws --region $REGION sagemaker create-cluster \ --cluster-name $HP_CLUSTER_NAME \ --vpc-config '{ "SecurityGroupIds":["'$SECURITY_GROUP'"], "Subnets":["'$PRIMARY_SUBNET'", "'$BACKUP_SUBNET'"] }' \ --instance-groups '[{ "InstanceGroupName": "'$CONTOLLER_IG_NAME'", "InstanceType": "ml.t3.medium", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$SLURM_EXECUTION_ROLE_ARN'", "ThreadsPerCore": 1 }, { "InstanceGroupName": "'$COMPUTE_IG_NAME'", "InstanceType": "ml.c5.xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$COMPUTE_NODE_ROLE'", "ThreadsPerCore": 1 }]'

    成功執行後,命令會傳回叢集 ARN,如下所示。

    { "ClusterArn": "arn:aws:sagemaker:us-east-1:111122223333:cluster/cluster_id" }
  2. (選用) 若要檢查叢集的狀態,您可以使用 SageMaker AI 主控台 (https://console.aws.amazon.com/sagemaker/)。從左側導覽中,選擇 HyperPod 叢集,然後選擇叢集管理。選擇叢集名稱以開啟叢集詳細資訊頁面。如果您的叢集已成功建立,您會看到叢集狀態為 InService

    此圖顯示 Amazon SageMaker AI 主控台中具有多個控制器節點的 HyperPod Slurm 叢集。