

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mempertimbangkan catatan penting
<a name="sagemaker-hyperpod-multihead-slurm-notes"></a>

Bagian ini memberikan beberapa catatan penting yang mungkin berguna bagi Anda. 

1. Untuk bermigrasi ke cluster Slurm multi-controller, selesaikan langkah-langkah ini.

   1. Ikuti instruksi [Penyediaan sumber daya menggunakan tumpukan CloudFormation](sagemaker-hyperpod-multihead-slurm-cfn.md) untuk menyediakan semua sumber daya yang diperlukan.

   1. Ikuti petunjuk [Mempersiapkan dan mengunggah skrip siklus hidup](sagemaker-hyperpod-multihead-slurm-scripts.md) untuk mengunggah skrip siklus hidup yang diperbarui. Saat memperbarui `provisioning_parameters.json` file, pindahkan grup pengontrol yang ada ke `worker_groups` bagian tersebut, dan tambahkan nama grup pengontrol baru di `controller_group` bagian tersebut.

   1. Jalankan panggilan API [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) untuk membuat grup pengontrol baru dan pertahankan grup instans komputasi asli dan grup pengontrol.

1. Untuk mengurangi jumlah node pengontrol, gunakan perintah CLI [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html). Untuk setiap grup instans pengontrol, jumlah minimum node pengontrol yang dapat Anda turunkan adalah 1. Ini berarti Anda tidak dapat menurunkan jumlah node pengontrol menjadi 0.
**penting**  
Untuk cluster yang dibuat sebelum 24 Jan 2025, Anda harus terlebih dahulu memperbarui perangkat lunak cluster Anda menggunakan [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API sebelum menjalankan perintah CLI [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html).

   Berikut ini adalah contoh perintah CLI untuk menurunkan jumlah node controller.

   ```
   aws sagemaker update-cluster \
       --cluster-name my_cluster \
       --instance-groups '[{                  
       "InstanceGroupName": "controller_ig_name",
       "InstanceType": "ml.t3.medium",
       "InstanceCount": 3,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "slurm_execution_role_arn",
       "ThreadsPerCore": 1
   },
   {
       "InstanceGroupName": "compute-ig_name",       
       "InstanceType": "ml.c5.xlarge",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "compute_node_role_arn",
       "ThreadsPerCore": 1
   }]'
   ```

1. Untuk menghapus node controller batch, gunakan perintah [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html)CLI. Untuk setiap grup instance controller, Anda harus menyimpan setidaknya satu node controller. Jika Anda ingin menghapus semua node pengontrol secara batch, operasi API tidak akan berfungsi.
**penting**  
Untuk cluster yang dibuat sebelum 24 Jan 2025, Anda harus terlebih dahulu memperbarui perangkat lunak cluster Anda menggunakan [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API sebelum menjalankan perintah CLI [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html).

   Berikut ini adalah contoh perintah CLI untuk batch menghapus node controller.

   ```
   aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
   ```

1. Untuk memecahkan masalah pembuatan klaster, periksa pesan kegagalan dari halaman detail cluster di konsol SageMaker AI Anda. Anda juga dapat menggunakan CloudWatch log untuk memecahkan masalah pembuatan klaster. Dari CloudWatch konsol, pilih **Grup log**. Kemudian, cari `clusters` untuk melihat daftar grup log yang terkait dengan pembuatan klaster Anda.  
![\[Gambar yang menampilkan grup log SageMaker HyperPod klaster Amazon di CloudWatch konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/hyperpod/hyperpod-lifecycle-multihead-logs.png)