

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 보고서 세부 정보 및 데이터 분석
<a name="sagemaker-hyperpod-usage-reporting-content"></a>

SageMaker HyperPod의 사용량 보고서는 컴퓨팅 리소스 소비를 분석하기 위한 두 가지 개별 렌즈, 즉 비용 할당을 위한 **요약 보고서**와 세분화된 감사를 위한 **세부 보고서**를 제공합니다. 요약 보고서는 팀 또는 네임스페이스별로 클러스터 전체 사용량을 집계하여 GPU, CPU 및 Neuron Core 리소스 전반에서 할당된 컴퓨팅과 차입한 컴퓨팅의 추세를 강조합니다. 세부 보고서는 개별 작업을 심층 분석하여 실행 기간, 작업 상태 및 우선순위 클래스 사용률과 같은 지표를 보여줍니다. 이 섹션에서는 이러한 보고서의 구조를 분석하고, 주요 지표를 이해하고, 관리자와 재무 팀이 요약 추세를 작업 수준 데이터와 상호 참조하여 비용 어트리뷰션 정확도를 검증하고, 불일치를 해결하고, 공유 인프라를 최적화하는 방법을 보여줍니다.

## 공통 REST 헤더
<a name="sagemaker-hyperpod-usage-reporting-content-headers"></a>

요약 보고서와 세부 보고서에는 사용 데이터를 컨텍스트화하기 위한 다음 메타데이터가 포함됩니다.
+ **ClusterName:** 리소스가 사용된 EKS 오케스트레이션 Hyperpod 클러스터 이름
+ **유형:** 보고서 범주(`Summary Utilization Report` 또는 `Detailed Utilization Report`)
+ **생성 날짜:** 보고서가 생성된 날짜(예: `2025-04-18`)
+ **날짜 범위(UTC):** 적용되는 기간(예: `2025-04-16 to 2025-04-18`)
+ **누락된 데이터 기간:** 클러스터 가동 중지 시간 또는 모니터링 문제로 인해 데이터가 수집되지 않은 기간(예: `2025-04-16 00:00:00 to 2025-04-19 00:00:00`)

## 요약 보고서
<a name="sagemaker-hyperpod-usage-reporting-content-summary"></a>

요약 보고서는 팀/네임스페이스 전반의 컴퓨팅 리소스 사용량에 대한 일일 개요와 할당된(예약된 할당량) 사용률과 차입한(대여된 풀) 사용률을 구분하는 인스턴스 유형을 제공합니다. 이러한 보고서는 인보이스 생성, 비용 어트리뷰션 문 또는 용량 예측에 적합합니다.

*예: 요약 보고서에는 팀 A가 할당된 할당량에서 170시간의 GPU, 차입하여 30시간, 이렇게 총 200시간의 GPU를 사용한 것으로 표시될 수 있습니다.*

다음은 요약 보고서의 주요 열에 대한 체계적인 분석입니다.
+ **날짜:** 보고된 사용량의 날짜(예: `2025-04-18`)
+ **네임스페이스:** 팀과 연결된 Kubernetes 네임스페이스(예: `hyperpod-ns-ml-team`)
+ **팀:** 소유 팀/부서(예: `ml-team`)
+ **인스턴스 유형:** 사용된 컴퓨팅 인스턴스(예: ml.g5.4xlarge)
+ **총 사용률/할당된 사용률/차입한 사용률(시간):** 범주별 GPU, CPU 또는 Neuron Core 사용량의 분석

  위치:
  + **총 사용률 = 할당된 사용률 \$1 차입한 사용률**
  + **할당된 사용률**은 팀이 사용한 실제 GPU CPU 또는 Neuron Core 시간으로, 할당된 할당량의 100%로 제한됩니다.
  + **차입한 사용률**은 팀이 *할당된 할당량을 초과*하여 사용한 실제 GPU, CPU 또는 Neuron Core 시간으로, 태스크 거버넌스 우선순위 규칙 및 리소스 가용성을 기반으로 공유 클러스터 풀에서 가져옵니다.

예: 총 72시간의 GPU(할당 48시간, 차입 24시간)

**참고**  
태스크 거버넌스에서 관리하지 않는 네임스페이스의 경우 총 사용률만 표시됩니다.

## 세부 보고서
<a name="sagemaker-hyperpod-usage-reporting-content-detailed"></a>

세부 보고서는 컴퓨팅 사용량에 대한 포렌식 수준의 가시성을 제공하여 작업별로 리소스 사용량을 분석하고 작업 실행 기간, 상태(예: 성공, 실패) 및 우선순위 클래스 사용과 같은 세분화된 지표를 보여줍니다. 이러한 보고서는 청구 불일치 검증 또는 거버넌스 정책 준수 보장에 적합합니다.

다음은 세부 보고서의 주요 열에 대한 체계적인 분석입니다.
+ **날짜:** 보고된 사용량의 날짜(예: `2025-04-18`)
+ **기간 시작/종료:** 작업의 정확한 실행 기간(UTC)(예: `19:54:34`)
+ **네임스페이스:** 팀과 연결된 Kubernetes 네임스페이스(예: `hyperpod-ns-ml-team`)
+ **팀:** 소유 팀/부서(예: `ml-team`)
+ **작업:** 작업/포드의 식별자(예: `pytorchjob-ml-pytorch-job-2p5zt-db686`)
+ **인스턴스:** 사용된 컴퓨팅 인스턴스(예: `ml.g5.4xlarge`)
+ **상태:** 작업 결과(성공, 실패, 선점됨)
+ **총 사용률:** GPU, CPU 또는 Neuron Core 리소스의 총 소비(시간 및 인스턴스 수)
+ **우선순위 클래스:** 할당된 우선순위 계층(예: training-priority)