HyperPod K8s에서 훈련 작업 실행 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

HyperPod K8s에서 훈련 작업 실행

SageMaker HyperPod 레시피는 GPU/Trainium Kubernetes 클러스터에 훈련 작업을 제출하는 것을 지원합니다. 훈련 작업을 제출하기 전에 다음 중 하나를 수행합니다.

  • k8s.yaml 클러스터 구성 파일을 수정합니다.

  • 명령줄을 통해 클러스터 구성 재정의

이전 단계 중 하나를 완료한 후 해당 환경을 설치합니다.

k8s.yaml을 사용한 클러스터 구성

Kubernetes 클러스터에 훈련 작업을 제출하려면 Kubernetes에 특화된 구성을 지정합니다. 구성에는 클러스터 네임스페이스 또는 영구 볼륨의 위치가 포함됩니다.

pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
  1. pullPolicy: 훈련 작업을 제출할 때 가져오기 정책을 지정할 수 있습니다. '항상'을 지정하면 Kubernetes 클러스터는 항상 리포지토리에서 이미지를 가져옵니다. 자세한 내용은 Image pull policy를 참조하세요.

  2. restartPolicy: 훈련 작업이 실패할 경우 다시 시작할지를 지정합니다.

  3. namespace: 훈련 작업을 제출할 Kubernetes 네임스페이스를 지정할 수 있습니다.

  4. persistent_volume_claims: 훈련 작업에 대한 공유 볼륨을 지정하여 모든 훈련 프로세스가 볼륨의 파일에 액세스하도록 할 수 있습니다.