本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立 SageMaker HyperPod 叢集
在設定所有必要的資源並將指令碼上傳到 Amazon S3 儲存貯體之後,您可以建立叢集。
-
若要建立叢集,請執行
create-clusterAWS CLI 命令。此程序最長可能需要 15 分鐘的時間才能完成。aws --region $REGION sagemaker create-cluster \ --cluster-name $HP_CLUSTER_NAME \ --vpc-config '{ "SecurityGroupIds":["'$SECURITY_GROUP'"], "Subnets":["'$PRIMARY_SUBNET'", "'$BACKUP_SUBNET'"] }' \ --instance-groups '[{ "InstanceGroupName": "'$CONTOLLER_IG_NAME'", "InstanceType": "ml.t3.medium", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$SLURM_EXECUTION_ROLE_ARN'", "ThreadsPerCore": 1 }, { "InstanceGroupName": "'$COMPUTE_IG_NAME'", "InstanceType": "ml.c5.xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$COMPUTE_NODE_ROLE'", "ThreadsPerCore": 1 }]'成功執行後,命令會傳回叢集 ARN,如下所示。
{ "ClusterArn": "arn:aws:sagemaker:us-east-1:111122223333:cluster/cluster_id" } -
(選用) 若要檢查叢集的狀態,您可以使用 SageMaker AI 主控台 (https://console.aws.amazon.com/sagemaker/
)。從左側導覽中,選擇 HyperPod 叢集,然後選擇叢集管理。選擇叢集名稱以開啟叢集詳細資訊頁面。如果您的叢集已成功建立,您會看到叢集狀態為 InService。