기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
HyperPod K8s에서 훈련 작업 실행
SageMaker HyperPod 레시피는 GPU/Trainium Kubernetes 클러스터에 훈련 작업을 제출하는 것을 지원합니다. 훈련 작업을 제출하기 전에 다음 중 하나를 수행합니다.
-
k8s.yaml클러스터 구성 파일을 수정합니다. -
명령줄을 통해 클러스터 구성 재정의
이전 단계 중 하나를 완료한 후 해당 환경을 설치합니다.
k8s.yaml을 사용한 클러스터 구성
Kubernetes 클러스터에 훈련 작업을 제출하려면 Kubernetes에 특화된 구성을 지정합니다. 구성에는 클러스터 네임스페이스 또는 영구 볼륨의 위치가 포함됩니다.
pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
-
pullPolicy: 훈련 작업을 제출할 때 가져오기 정책을 지정할 수 있습니다. '항상'을 지정하면 Kubernetes 클러스터는 항상 리포지토리에서 이미지를 가져옵니다. 자세한 내용은 Image pull policy를 참조하세요. -
restartPolicy: 훈련 작업이 실패할 경우 다시 시작할지를 지정합니다. -
namespace: 훈련 작업을 제출할 Kubernetes 네임스페이스를 지정할 수 있습니다. -
persistent_volume_claims: 훈련 작업에 대한 공유 볼륨을 지정하여 모든 훈련 프로세스가 볼륨의 파일에 액세스하도록 할 수 있습니다.