

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 建立 SageMaker HyperPod 叢集
<a name="sagemaker-hyperpod-multihead-slurm-create"></a>

在設定所有必要的資源並將指令碼上傳到 Amazon S3 儲存貯體之後，您可以建立叢集。

1. 若要建立叢集，請執行 [https://docs.aws.amazon.com//cli/latest/reference/sagemaker/create-cluster.html](https://docs.aws.amazon.com//cli/latest/reference/sagemaker/create-cluster.html) AWS CLI 命令。此程序最長可能需要 15 分鐘的時間才能完成。

   ```
   aws --region $REGION sagemaker create-cluster \
       --cluster-name $HP_CLUSTER_NAME \
       --vpc-config '{
           "SecurityGroupIds":["'$SECURITY_GROUP'"],
           "Subnets":["'$PRIMARY_SUBNET'", "'$BACKUP_SUBNET'"]
       }' \
       --instance-groups '[{                  
       "InstanceGroupName": "'$CONTOLLER_IG_NAME'",
       "InstanceType": "ml.t3.medium",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://'$BUCKET_NAME'",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "'$SLURM_EXECUTION_ROLE_ARN'",
       "ThreadsPerCore": 1
   },
   {
       "InstanceGroupName": "'$COMPUTE_IG_NAME'",          
       "InstanceType": "ml.c5.xlarge",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://'$BUCKET_NAME'",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "'$COMPUTE_NODE_ROLE'",
       "ThreadsPerCore": 1
   }]'
   ```

   成功執行後，命令會傳回叢集 ARN，如下所示。

   ```
   {
       "ClusterArn": "arn:aws:sagemaker:{{us-east-1}}:{{111122223333}}:cluster/{{cluster_id}}"
   }
   ```

1. (選用) 若要檢查叢集的狀態，您可以使用 SageMaker AI 主控台 ([https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/))。從左側導覽中，選擇 **HyperPod 叢集**，然後選擇**叢集管理**。選擇叢集名稱以開啟叢集詳細資訊頁面。如果您的叢集已成功建立，您會看到叢集狀態為 **InService**。  
![此圖顯示 Amazon SageMaker AI 主控台中具有多個控制器節點的 HyperPod Slurm 叢集。](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/hyperpod/hyperpod-lifecycle-multihead-cluster.png)