기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon EKS에서 오케스트레이션한 SageMaker HyperPod 클러스터에서 작업 실행
다음 주제에서는 Amazon EKS로 오케스트레이션된 프로비저닝된 SageMaker HyperPod 클러스터에서 컴퓨팅 노드에 액세스하고 ML 워크로드를 실행하는 절차와 예제를 제공합니다. HyperPod 클러스터에서 환경을 설정한 방식에 따라 HyperPod 클러스터에서 ML 워크로드를 실행하는 방법은 다양합니다.
참고
SageMaker HyperPod CLI 또는 kubectl을 통해 작업을 실행할 때 HyperPod는 네임스페이스(팀) 전반에서 컴퓨팅 사용률(GPU/CPU 시간)을 추적할 수 있습니다. 이러한 지표 전력 사용량 보고서는 다음을 제공합니다.
-
할당된 리소스 소비와 차용된 리소스 소비에 대한 가시성
-
감사를 위한 Teams 리소스 사용률(최대 180일)
-
작업 거버넌스 정책에 따른 비용 어트리뷰션
사용 보고서를 사용하려면 사용 보고서 인프라를 설치해야 합니다. 컴퓨팅 할당량을 적용하고 세분화된 비용 속성을 활성화하도록 태스크 거버넌스를 구성하는 것이 좋습니다.
사용 보고서 설정 및 생성에 대한 자세한 내용은 HyperPod에서 컴퓨팅 사용량 보고를 참조하세요.
작은 정보
Amazon EKS로 오케스트레이션된 SageMaker HyperPod 클러스터를 설정하고 사용하는 방법에 대한 실습 경험 및 지침은 SageMaker HyperPod 워크숍에서 Amazon EKS 지원
데이터 사이언티스트 사용자는 SageMaker HyperPod 클러스터의 오케스트레이터로 설정된 EKS 클러스터를 사용하여 기본 모델을 훈련할 수 있습니다. 과학자는 SageMaker HyperPod CLIkubectl
명령을 활용하여 사용 가능한 SageMaker HyperPod 클러스터를 찾고, 훈련 작업(Pods)을 제출하고, 워크로드를 관리합니다. SageMaker HyperPod CLI는 훈련 작업 스키마 파일을 사용하여 작업 제출을 활성화하고 작업 목록, 설명, 취소 및 실행 기능을 제공합니다. 과학자는 HyperPod에서 관리하는 컴퓨팅 할당량과 SageMaker AI 관리형 MLflow에 따라 Kubeflow 훈련 연