기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker HyperPod의 비용 어트리뷰션에 대한 사용 보고
SageMaker HyperPod EKS 오케스트레이션 클러스터의 사용 보고는 컴퓨팅 리소스 소비에 대한 세분화된 가시성을 제공합니다. 이 기능을 통해 조직은 투명한 비용 속성을 구현하여 실제 사용량에 따라 팀, 프로젝트 또는 부서에 클러스터 비용을 할당할 수 있습니다. GPU/CPU 시간 및 팀 수준 집계와 작업별 분석 모두에서 캡처된 Neuron Core 사용률과 같은 지표를 추적하여 사용 보고는 HyperPod의 작업 거버넌스 기능을 보완하여 다음을 통해 공유 다중 테넌트 클러스터에서 공정한 비용 분배를 보장합니다.
-
비용 할당의 추측 제거
-
비용을 측정 가능한 리소스 소비에 직접 연결
-
공유 인프라 환경에서 사용량 기반 책임 적용
사전 조건
이 기능을 사용하려면:
-
다음이 필요합니다.
-
실행 중인 EKS 오케스트레이션 클러스터가 있는 활성 SageMaker HyperPod 환경입니다.
-
(권장) 컴퓨팅 할당량 및 우선 순위 규칙으로 구성된 태스크 거버넌스. 설정 지침은 작업 거버넌스 설정을 참조하세요.
-
-
다음과 같은 핵심 개념을 숙지합니다.
-
할당된 컴퓨팅 할당량: 작업 거버넌스 정책의 사전 정의된 할당량을 기반으로 팀을 위해 예약된 리소스입니다. 이는 워크로드에 대해 보장된 용량입니다.
-
빌린 컴퓨팅: 팀이 할당된 할당량을 초과하여 일시적으로 사용할 수 있는 공유 클러스터 풀의 유휴 리소스입니다. 빌린 컴퓨팅은 작업 거버넌스 정책의 우선 순위 규칙과 미사용 리소스의 가용성에 따라 동적으로 할당됩니다.
-
컴퓨팅 사용량: 팀이 소비한 리소스(GPU, CPU, Neuron Core 시간)의 측정으로, 다음과 같이 추적됩니다.
-
할당된 사용률: 팀의 할당량 내에서 사용합니다.
-
차용 사용률: 공유 풀에서 가져온 할당량을 초과하는 사용량입니다.
-
-
비용 어트리뷰션: 사전 정의된 할당량 내에서 사용된 리소스와 할당량을 초과하여 공유 클러스터 풀에서 일시적으로 사용된 리소스를 모두 포함하여 실제 컴퓨팅 사용량을 기반으로 팀에 클러스터 비용을 할당하는 프로세스입니다.
-
보고서 유형
HyperPod의 사용 보고서는 다양한 운영 세부 수준을 제공합니다.
-
요약 보고서는 조직 전체의 컴퓨팅 사용량에 대한 가시성을 제공하여 팀(네임스페이스)당 총 GPU/CPU/Neuron Core 시간을 집계하는 동시에 정규 사용량(리소스와 팀의 할당된 할당량)과 차용 컴퓨팅(공유 풀의 오버플로 용량)을 구분합니다.
-
세부 보고서는 팀별로 작업 수준 분석을 제공하여 선점된 작업, 시간당 사용률 패턴, 네임스페이스별 할당 등 특정 작업을 실행하는 데 소요된 정확한 컴퓨팅 시간을 추적합니다.
중요
HyperPod 사용 보고는 작업 거버넌스, 기본 네임스페이스 및 작업 거버넌스 외부에서 생성된 네임스페이스(예: 직접 Kubernetes API 직접 호출 또는 외부 도구를 통해)로 관리되는 네임스페이스를 포함하여 클러스터의 모든 Kubernetes 네임스페이스에서 컴퓨팅 사용률을 추적합니다. 이 인프라 수준 모니터링은 포괄적인 사용량 기반 책임을 보장하여 네임스페이스 관리 방식에 관계없이 공유 클러스터의 비용 어트리뷰션 격차를 방지합니다.
보고서 형식 및 시간 범위
보고서 생성관리자는에 제공된 Python 스크립트를 사용하여 CSV 또는 PDF 형식으로 온디맨드 사용 보고서를 생성하여 일일 스냅샷에서 180일(6개월) 기록 기간까지의 시간 범위를 선택할 수 있습니다.
참고
보고 인프라를 설정할 때 기본 최대 180일 이상으로 연장되도록 기록 기간을 구성할 수 있습니다. 데이터 보존 기간 구성에 대한 자세한 내용은 CloudFormation을 사용하여 사용 보고서 인프라 설치를
예시 사용 사례
이 기능은 다음과 같은 다중 테넌트 AI/ML 환경의 중요한 시나리오를 다룹니다.
-
공유 클러스터에 대한 비용 할당: 관리자는 생성형 AI 모델을 훈련하는 20개 팀이 공유하는 HyperPod 클러스터를 관리합니다. 요약 사용 보고서를 사용하여 180일 동안의 일일 GPU 사용률을 분석하고 팀 A가 할당된 할당량에서 170, 빌린 컴퓨팅에서 30 등 특정 인스턴스 유형에서 200시간의 GPU를 소비했음을 발견합니다. 관리자는이 보고된 사용량을 기준으로 팀 A에 인보이스를 발행합니다.
-
감사 및 분쟁 해결: 재무 팀이 비용 속성 정확도에 대해 질문하고 불일치를 인용합니다. 관리자는 세부 작업 수준 보고서를 내보내 불일치를 감사할 수 있습니다. 팀의 네임스페이스 내에서 타임스탬프, 인스턴스 유형 및 선점된 작업을 교차 참조함으로써 보고서는 손상된 사용 데이터를 투명하게 조정합니다.