

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# HyperPod 훈련 운영자 사용
<a name="sagemaker-eks-operator"></a>

 Amazon SageMaker HyperPod 훈련 운영자는 대규모 GPU 클러스터에서 분산 훈련을 효율적으로 관리하여 생성형 AI 모델 개발의 속도를 높이는 데 도움이 됩니다. 지능형 장애 복구, 중단 작업 감지 및 프로세스 수준 관리 기능을 도입하여 훈련 중단을 최소화하고 비용을 절감합니다. 장애가 발생할 때 전체 작업을 다시 시작해야 하는 기존 훈련 인프라와 달리 이 운영자는 수술 프로세스 복구를 구현하여 훈련 작업의 원활한 실행을 유지합니다.

 또한 운영자는 HyperPod의 상태 모니터링 및 관찰성 함수를 활용하여 훈련 실행에 대한 실시간 가시성과 손실 급증 및 처리량 저하와 같은 중요 지표의 자동 모니터링을 제공합니다. 코드 변경 없이 간단한 YAML 구성을 통해 복구 정책을 정의할 수 있으므로 복구할 수 없는 훈련 상태에 신속하게 대응하고 복구할 수 있습니다. 이러한 모니터링 및 복구 기능을 함께 활용하면 운영 오버헤드를 최소화하면서 최적의 훈련 성능을 유지할 수 있습니다.

 이 훈련 운영자에는 Kueue가 필요하지 않지만 클러스터 관리자는 향상된 작업 예약 기능을 위해 Kueue를 설치하고 구성할 수 있습니다. 자세한 내용은 [Kueue의 공식 설명서](https://kueue.sigs.k8s.io/docs/overview/)를 참조하세요.

**참고**  
훈련 운영자를 사용하려면 최신 [HyperPod AMI 릴리스](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-release-ami-eks.html)를 사용해야 합니다. 업그레이드하려면 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API 작업을 사용하세요. [HyperPod 태스크 거버넌스](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-operate-console-ui-governance.html)를 사용하는 경우 최신 버전이어야 합니다.

## 지원되는 버전
<a name="sagemaker-eks-operator-supported-versions"></a>

 HyperPod 훈련 운영자는 특정 버전의 Kubernetes, Kueue 및 HyperPod에서만 작동합니다. 호환되는 버전의 전체 목록은 아래 목록을 참조하세요.
+ 지원되는 Kubernetes 버전 – 1.28, 1.29, 1.30, 1.31, 1.32 및 1.33
+ 제안된 Kueue 버전 – [v.0.12.2](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.2) 및 [v.0.12.3](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.3)
+ 최신 HyperPod AMI 릴리스. 최신 AMI 릴리스로 업그레이드하려면 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API를 사용하세요.
+ [PyTorch 2.4.0\~2.7.1](https://github.com/pytorch/pytorch/releases)

**참고**  
당사는 필수 서비스 가용성을 제공하기 위해 일상적인 집계 및 익명화된 특정 운영 지표를 수집합니다. 이러한 지표의 생성은 완전히 자동화되며 기본 모델 훈련 워크로드에 대한 인적 검토가 필요하지 않습니다. 이러한 지표는 작업 작업, 리소스 관리 및 필수 서비스 기능과 관련이 있습니다.