기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
보고서 세부 정보 및 데이터 분석
SageMaker HyperPod의 사용량 보고서는 컴퓨팅 리소스 소비를 분석하기 위한 두 가지 개별 렌즈, 즉 비용 할당을 위한 요약 보고서와 세분화된 감사를 위한 세부 보고서를 제공합니다. 요약 보고서는 팀 또는 네임스페이스별로 클러스터 전체 사용량을 집계하여 GPU, CPU 및 Neuron Core 리소스 전반에서 할당된 컴퓨팅과 차입한 컴퓨팅의 추세를 강조합니다. 세부 보고서는 개별 작업을 심층 분석하여 실행 기간, 작업 상태 및 우선순위 클래스 사용률과 같은 지표를 보여줍니다. 이 섹션에서는 이러한 보고서의 구조를 분석하고, 주요 지표를 이해하고, 관리자와 재무 팀이 요약 추세를 작업 수준 데이터와 상호 참조하여 비용 어트리뷰션 정확도를 검증하고, 불일치를 해결하고, 공유 인프라를 최적화하는 방법을 보여줍니다.
공통 REST 헤더
요약 보고서와 세부 보고서에는 사용 데이터를 컨텍스트화하기 위한 다음 메타데이터가 포함됩니다.
-
ClusterName: 리소스가 사용된 EKS 오케스트레이션 Hyperpod 클러스터 이름
-
유형: 보고서 범주(
Summary Utilization Report또는Detailed Utilization Report) -
생성 날짜: 보고서가 생성된 날짜(예:
2025-04-18) -
날짜 범위(UTC): 적용되는 기간(예:
2025-04-16 to 2025-04-18) -
누락된 데이터 기간: 클러스터 가동 중지 시간 또는 모니터링 문제로 인해 데이터가 수집되지 않은 기간(예:
2025-04-16 00:00:00 to 2025-04-19 00:00:00)
요약 보고서
요약 보고서는 팀/네임스페이스 전반의 컴퓨팅 리소스 사용량에 대한 일일 개요와 할당된(예약된 할당량) 사용률과 차입한(대여된 풀) 사용률을 구분하는 인스턴스 유형을 제공합니다. 이러한 보고서는 인보이스 생성, 비용 어트리뷰션 문 또는 용량 예측에 적합합니다.
예: 요약 보고서에는 팀 A가 할당된 할당량에서 170시간의 GPU, 차입하여 30시간, 이렇게 총 200시간의 GPU를 사용한 것으로 표시될 수 있습니다.
다음은 요약 보고서의 주요 열에 대한 체계적인 분석입니다.
-
날짜: 보고된 사용량의 날짜(예:
2025-04-18) -
네임스페이스: 팀과 연결된 Kubernetes 네임스페이스(예:
hyperpod-ns-ml-team) -
팀: 소유 팀/부서(예:
ml-team) -
인스턴스 유형: 사용된 컴퓨팅 인스턴스(예: ml.g5.4xlarge)
-
총 사용률/할당된 사용률/차입한 사용률(시간): 범주별 GPU, CPU 또는 Neuron Core 사용량의 분석
위치:
-
총 사용률 = 할당된 사용률 + 차입한 사용률
-
할당된 사용률은 팀이 사용한 실제 GPU CPU 또는 Neuron Core 시간으로, 할당된 할당량의 100%로 제한됩니다.
-
차입한 사용률은 팀이 할당된 할당량을 초과하여 사용한 실제 GPU, CPU 또는 Neuron Core 시간으로, 태스크 거버넌스 우선순위 규칙 및 리소스 가용성을 기반으로 공유 클러스터 풀에서 가져옵니다.
-
예: 총 72시간의 GPU(할당 48시간, 차입 24시간)
참고
태스크 거버넌스에서 관리하지 않는 네임스페이스의 경우 총 사용률만 표시됩니다.
세부 보고서
세부 보고서는 컴퓨팅 사용량에 대한 포렌식 수준의 가시성을 제공하여 작업별로 리소스 사용량을 분석하고 작업 실행 기간, 상태(예: 성공, 실패) 및 우선순위 클래스 사용과 같은 세분화된 지표를 보여줍니다. 이러한 보고서는 청구 불일치 검증 또는 거버넌스 정책 준수 보장에 적합합니다.
다음은 세부 보고서의 주요 열에 대한 체계적인 분석입니다.
-
날짜: 보고된 사용량의 날짜(예:
2025-04-18) -
기간 시작/종료: 작업의 정확한 실행 기간(UTC)(예:
19:54:34) -
네임스페이스: 팀과 연결된 Kubernetes 네임스페이스(예:
hyperpod-ns-ml-team) -
팀: 소유 팀/부서(예:
ml-team) -
작업: 작업/포드의 식별자(예:
pytorchjob-ml-pytorch-job-2p5zt-db686) -
인스턴스: 사용된 컴퓨팅 인스턴스(예:
ml.g5.4xlarge) -
상태: 작업 결과(성공, 실패, 선점됨)
-
총 사용률: GPU, CPU 또는 Neuron Core 리소스의 총 소비(시간 및 인스턴스 수)
-
우선순위 클래스: 할당된 우선순위 계층(예: training-priority)