

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# SageMaker HyperPod의 비용 어트리뷰션에 대한 사용량 보고
<a name="sagemaker-hyperpod-usage-reporting"></a>

SageMaker HyperPod EKS 오케스트레이션 클러스터의 사용량 보고는 컴퓨팅 리소스 소비에 대한 세분화된 가시성을 제공합니다. 이 기능을 통해 조직은 투명한 비용 어트리뷰션을 구현하여 실제 사용량에 따라 팀, 프로젝트 또는 부서에 클러스터 비용을 할당할 수 있습니다. 사용량 보고는 GPU/CPU 시간 및 *팀 수준 집계와 작업별 분석 모두*에서 캡처된 Neuron Core 사용률과 같은 지표를 추적하여 HyperPod의 [태스크 거버넌스](sagemaker-hyperpod-eks-operate-console-ui-governance.md) 기능을 보완함으로써 다음을 통해 공유 다중 테넌트 클러스터에서 공정한 비용 분배를 보장합니다.
+ 비용 할당에서 추측 제거
+ 비용을 측정 가능한 리소스 소비에 직접 연결
+ 공유 인프라 환경에서 사용량 기반 책임 적용

## 사전 조건
<a name="sagemaker-hyperpod-usage-reporting-prerequisites"></a>

이 기능을 사용하려면 다음을 수행하세요.
+ 다음이 필요합니다.
  + 실행 중인 EKS 오케스트레이션 클러스터가 있는 활성 **SageMaker HyperPod 환경**
  + (매우 권장) 컴퓨팅 할당량 및 우선순위 규칙이 **구성된 태스크 거버넌스**. 설정 지침은 [태스크 거버넌스 설정](sagemaker-hyperpod-eks-operate-console-ui-governance-setup.md)을 참조하세요.
+ 다음과 같은 핵심 개념을 숙지하세요.
  + **할당된 컴퓨팅 할당량:** 태스크 거버넌스 정책의 사전 정의된 할당량을 기반으로 팀을 위해 예약된 리소스입니다. 이는 워크로드에 대해 *보장된 용량*입니다.
  + **차입한 컴퓨팅:** 팀이 *할당된 할당량을 초과*하여 일시적으로 사용할 수 있는 공유 클러스터 풀의 유휴 리소스입니다. 차입한 컴퓨팅은 태스크 거버넌스 정책의 우선순위 규칙과 미사용 리소스의 가용성을 기반으로 동적으로 할당됩니다.
  + **컴퓨팅 사용량:** 팀이 소비한 리소스(GPU, CPU, Neuron Core 시간)의 측정으로, 다음과 같이 추적됩니다.
    + **할당된 사용률**: 팀의 할당량 내 사용량
    + **차입한 사용률**: 공유 풀에서 가져온, 할당량을 초과하는 사용량
  + **비용 어트리뷰션:** 사전 정의된 할당량 내에서 사용된 리소스와 할당량을 초과하여 공유 클러스터 풀에서 일시적으로 사용된 리소스를 포함하여 *실제 컴퓨팅 사용량*을 기반으로 팀에 클러스터 비용을 할당하는 프로세스입니다.

## 보고서 유형
<a name="sagemaker-hyperpod-usage-reporting-report-types"></a>

HyperPod의 사용량 보고서는 다양한 운영 세부 수준을 제공합니다.
+ **요약 보고서**는 조직 전체의 컴퓨팅 사용량에 대한 가시성을 제공하여 팀(네임스페이스)당 총 GPU/CPU/Neuron Core 시간을 집계하는 동시에 *정규 사용량*(리소스와 팀의 할당된 할당량)과 *차입한 컴퓨팅*(공유 풀의 오버플로 용량)을 구분합니다.
+ **세부 보고서**는 팀별로 작업 수준 분석을 제공하여 선점된 작업, 시간별 사용률 패턴, 네임스페이스별 할당 등 특정 작업을 실행하는 데 소요된 정확한 컴퓨팅 시간을 추적합니다.

**중요**  
HyperPod 사용량 보고는 태스크 거버넌스에서 관리하는 네임스페이스, 기본 네임스페이스 및 **태스크 거버넌스 외부**에서 생성된 네임스페이스(예: 직접 Kubernetes API 직접 호출 또는 외부 도구를 통해)를 포함하여 클러스터의 *모든 Kubernetes 네임스페이스*에서 컴퓨팅 사용률을 추적합니다. 이 인프라 수준 모니터링은 포괄적인 사용량 기반 책임을 보장하여 네임스페이스 관리 방식과 관계없이 공유 클러스터의 비용 어트리뷰션 격차를 방지합니다.

## 보고서 형식 및 시간 범위
<a name="sagemaker-hyperpod-usage-reporting-formats"></a>

관리자는 [보고서 생성](sagemaker-hyperpod-usage-reporting-generate.md)에 제공된 Python 스크립트를 사용하여 필요할 때 CSV 또는 PDF 형식으로 사용량 보고서를 생성할 수 있습니다. 이때 일일 스냅샷에서 과거 180일(6개월)까지의 시간 범위를 선택할 수 있습니다.

**참고**  
보고 인프라를 설정할 때 기본 최대 180일 이상으로 연장되도록 과거 기간을 구성할 수 있습니다. 데이터 보존 기간 구성에 대한 자세한 내용은 [Install Usage Report Infrastructure using CloudFormation](https://github.com/awslabs/sagemaker-hyperpod-usage-report/blob/main/README.md#install-usage-report-infrastructure-using-cloudformation)을 참조하세요.

## 예시 사용 사례
<a name="sagemaker-hyperpod-usage-reporting-use-cases"></a>

이 기능은 다음과 같은 다중 테넌트 AI/ML 환경의 중요한 시나리오를 해결합니다.

1. **공유 클러스터에 대한 비용 할당**: 관리자는 생성형 AI 모델을 훈련하는 20개 팀이 공유하는 HyperPod 클러스터를 관리합니다. *요약 사용량 보고서*를 사용하여 180일 동안의 일일 GPU 사용률을 분석하고 팀 A가 할당된 할당량에서 170, 차입한 컴퓨팅에서 30 등 특정 인스턴스 유형에서 200시간의 GPU를 소비했음을 발견합니다. 관리자는 이 보고된 사용량을 기준으로 팀 A에 인보이스를 발행합니다.

1. **감사 및 분쟁 해결**: 재무 팀이 불일치를 인용하면서 비용 어트리뷰션 정확도에 대해 질문합니다. 관리자는 *세부 작업 수준 보고서*를 내보내 불일치를 감사할 수 있습니다. 팀의 네임스페이스 내에서 타임스탬프, 인스턴스 유형 및 선점된 작업을 교차 참조함으로써 보고서는 분쟁이 제기된 사용량 데이터를 투명하게 조정합니다.