Einen SageMaker HyperPod Cluster erstellen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Einen SageMaker HyperPod Cluster erstellen

Nachdem Sie alle erforderlichen Ressourcen eingerichtet und die Skripte in den Amazon-S3-Bucket hochgeladen haben, können Sie einen Cluster erstellen.

  1. Führen Sie den create-cluster AWS CLI Befehl aus, um einen Cluster zu erstellen. Der Erstellungsprozess kann bis zu 15 Minuten dauern.

    aws --region $REGION sagemaker create-cluster \ --cluster-name $HP_CLUSTER_NAME \ --vpc-config '{ "SecurityGroupIds":["'$SECURITY_GROUP'"], "Subnets":["'$PRIMARY_SUBNET'", "'$BACKUP_SUBNET'"] }' \ --instance-groups '[{ "InstanceGroupName": "'$CONTOLLER_IG_NAME'", "InstanceType": "ml.t3.medium", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$SLURM_EXECUTION_ROLE_ARN'", "ThreadsPerCore": 1 }, { "InstanceGroupName": "'$COMPUTE_IG_NAME'", "InstanceType": "ml.c5.xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$COMPUTE_NODE_ROLE'", "ThreadsPerCore": 1 }]'

    Nach erfolgreicher Ausführung gibt der Befehl den Cluster-ARN wie folgt zurück.

    { "ClusterArn": "arn:aws:sagemaker:us-east-1:111122223333:cluster/cluster_id" }
  2. (Optional) Um den Status Ihres Clusters zu überprüfen, können Sie die SageMaker AI-Konsole (https://console.aws.amazon.com/sagemaker/) verwenden. Wählen Sie in der linken Navigationsleiste HyperPod Clusters und anschließend Cluster Management aus. Wählen Sie einen Clusternamen aus, um die Cluster-Detailseite zu öffnen. Wenn Ihr Cluster erfolgreich erstellt wurde, sehen Sie, dass der Cluster-Status lautet InService.

    Das Bild zeigt einen HyperPod Slurm-Cluster mit mehreren Controller-Knoten in der Amazon SageMaker AI-Konsole.