

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 중요 참고 사항 고려
<a name="sagemaker-hyperpod-multihead-slurm-notes"></a>

이 섹션에서는 도움이 될 수 있는 몇 가지 중요한 정보를 제공합니다.

1. 다중 컨트롤러 Slurm 클러스터로 마이그레이션하려면 다음 단계를 완료하세요.

   1. [CloudFormation 스택을 사용하여 리소스 프로비저닝](sagemaker-hyperpod-multihead-slurm-cfn.md)의 지침에 따라 필요한 모든 리소스를 프로비저닝합니다.

   1. [수명 주기 스크립트 준비 및 업로드](sagemaker-hyperpod-multihead-slurm-scripts.md)의 지침에 따라 업데이트된 수명 주기 스크립트를 업로드합니다. `provisioning_parameters.json` 파일을 업데이트할 때 기존 컨트롤러 그룹을 `worker_groups` 섹션으로 이동하고 `controller_group` 섹션에 새 컨트롤러 그룹 이름을 추가합니다.

   1. [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) API 직접 호출을 실행하여 새 컨트롤러 그룹을 생성하고 원래 컴퓨팅 인스턴스 그룹과 컨트롤러 그룹을 유지합니다.

1. 컨트롤러 노드 수를 스케일 다운하려면 [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) CLI 명령을 사용합니다. 각 컨트롤러 인스턴스 그룹에 대해 최소 1개의 컨트롤러 노드까지 스케일 다운할 수 있습니다. 즉, 컨트롤러 노드 수를 0으로 스케일 다운할 수 없습니다.
**중요**  
2025년 1월 24일 이전에 생성된 클러스터의 경우 [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) CLI 명령을 실행하기 전에 먼저 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API를 사용하여 클러스터 소프트웨어를 업데이트해야 합니다.

   다음은 컨트롤러 노드 수를 스케일 다운하는 CLI 명령의 예입니다.

   ```
   aws sagemaker update-cluster \
       --cluster-name {{my_cluster}} \
       --instance-groups '[{                  
       "InstanceGroupName": "{{controller_ig_name}}",
       "InstanceType": "{{ml.t3.medium}}",
       "InstanceCount": {{3}},
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "{{slurm_execution_role_arn}}",
       "ThreadsPerCore": {{1}}
   },
   {
       "InstanceGroupName": "{{compute-ig_name}}",       
       "InstanceType": "{{ml.c5.xlarge}}",
       "InstanceCount": {{2}},
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "{{compute_node_role_arn}}",
       "ThreadsPerCore": {{1}}
   }]'
   ```

1. 컨트롤러 노드를 일괄 삭제하려면 [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html) CLI 명령을 사용합니다. 각 컨트롤러 인스턴스 그룹에 대해 하나 이상의 컨트롤러 노드를 유지해야 합니다. 모든 컨트롤러 노드를 일괄 삭제하려는 경우 API 작업이 작동하지 않습니다.
**중요**  
2025년 1월 24일 이전에 생성된 클러스터의 경우 [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html) CLI 명령을 실행하기 전에 먼저 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API를 사용하여 클러스터 소프트웨어를 업데이트해야 합니다.

   다음은 컨트롤러 노드를 일괄 삭제하는 CLI 명령의 예입니다.

   ```
   aws sagemaker batch-delete-cluster-nodes --cluster-name {{my_cluster}} --node-ids {{instance_ids_to_delete}}
   ```

1. 클러스터 생성 문제를 해결하려면 SageMaker AI 콘솔의 클러스터 세부 정보 페이지에서 실패 메시지를 확인하세요. CloudWatch 로그를 사용하여 클러스터 생성 문제를 해결할 수도 있습니다. CloudWatch 콘솔에서 **로그 그룹**을 선택합니다. 그런 다음, `clusters`를 검색하여 클러스터 생성과 관련된 로그 그룹 목록을 확인합니다.  
![CloudWatch 콘솔의 Amazon SageMaker HyperPod 클러스터 로그 그룹을 보여주는 이미지입니다.](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/hyperpod/hyperpod-lifecycle-multihead-logs.png)