HyperPod 훈련 운영자 사용

Amazon SageMaker HyperPod 훈련 운영자는 대규모 GPU 클러스터에서 분산 훈련을 효율적으로 관리하여 생성형 AI 모델 개발의 속도를 높이는 데 도움이 됩니다. 지능형 장애 복구, 중단 작업 감지 및 프로세스 수준 관리 기능을 도입하여 훈련 중단을 최소화하고 비용을 절감합니다. 장애가 발생할 때 전체 작업을 다시 시작해야 하는 기존 훈련 인프라와 달리 이 운영자는 수술 프로세스 복구를 구현하여 훈련 작업의 원활한 실행을 유지합니다.

또한 운영자는 HyperPod의 상태 모니터링 및 관찰성 함수를 활용하여 훈련 실행에 대한 실시간 가시성과 손실 급증 및 처리량 저하와 같은 중요 지표의 자동 모니터링을 제공합니다. 코드 변경 없이 간단한 YAML 구성을 통해 복구 정책을 정의할 수 있으므로 복구할 수 없는 훈련 상태에 신속하게 대응하고 복구할 수 있습니다. 이러한 모니터링 및 복구 기능을 함께 활용하면 운영 오버헤드를 최소화하면서 최적의 훈련 성능을 유지할 수 있습니다.

이 훈련 운영자에는 Kueue가 필요하지 않지만 클러스터 관리자는 향상된 작업 예약 기능을 위해 Kueue를 설치하고 구성할 수 있습니다. 자세한 내용은 Kueue의 공식 설명서를 참조하세요.

참고

훈련 운영자를 사용하려면 최신 HyperPod AMI 릴리스를 사용해야 합니다. 업그레이드하려면 UpdateClusterSoftware API 작업을 사용하세요. HyperPod 태스크 거버넌스를 사용하는 경우 최신 버전이어야 합니다.

지원되는 버전

HyperPod 훈련 운영자는 특정 버전의 Kubernetes, Kueue 및 HyperPod에서만 작동합니다. 호환되는 버전의 전체 목록은 아래 목록을 참조하세요.

지원되는 Kubernetes 버전 – 1.28, 1.29, 1.30, 1.31, 1.32 및 1.33
제안된 Kueue 버전 – v.0.12.2 및 v.0.12.3
최신 HyperPod AMI 릴리스. 최신 AMI 릴리스로 업그레이드하려면 UpdateClusterSoftware API를 사용하세요.
PyTorch 2.4.0~2.7.1

참고

당사는 필수 서비스 가용성을 제공하기 위해 일상적인 집계 및 익명화된 특정 운영 지표를 수집합니다. 이러한 지표의 생성은 완전히 자동화되며 기본 모델 훈련 워크로드에 대한 인적 검토가 필요하지 않습니다. 이러한 지표는 작업 작업, 리소스 관리 및 필수 서비스 기능과 관련이 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

kubectl를 사용하여 작업 실행

설치