SageMaker HyperPod 클러스터 지표 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod 클러스터 지표

Amazon SageMaker HyperPod(SageMaker HyperPod)는 9가지 개별 범주의 다양한 지표를 Amazon Managed Service for Prometheus 워크스페이스에 게시합니다. 모든 지표가 기본적으로 활성화되거나 Amazon Managed Grafana 워크스페이스에 표시되지는 않습니다. 다음 표에는 관찰성 추가 기능을 설치할 때 기본적으로 활성화되는 지표, 더 세분화된 클러스터 정보에 대해 활성화할 수 있는 추가 지표가 있는 범주, Amazon Managed Grafana 워크스페이스에서 표시되는 위치가 나와 있습니다.

지표 범주 기본적으로 활성화되어 있습니까? 추가 고급 지표를 사용할 수 있나요? 어떤 Grafana 대시보드에서 사용할 수 있나요?
훈련 지표 학습
추론 지표 아니요 Inference
작업 거버넌스 지표 아니요 없음. Amazon Managed Service for Prometheus 워크스페이스를 쿼리하여 자체 대시보드를 빌드합니다.
조정 지표 아니요 없음. Amazon Managed Service for Prometheus 워크스페이스를 쿼리하여 자체 대시보드를 빌드합니다.
클러스터 지표 클러스터
인스턴스 지표 클러스터
가속화된 컴퓨팅 지표 작업, 클러스터
네트워크 지표 아니요 클러스터
파일 시스템 아니요 파일 시스템

다음 표에서는 범주별로 구성된 SageMaker HyperPod 클러스터를 모니터링하는 데 사용할 수 있는 지표를 설명합니다.

훈련 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 실행되는 훈련 작업의 성능을 추적합니다.

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
Kubeflow 지표 https://github.com/kubeflow/trainer Kubeflow
Kubernetes 포드 지표 https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage 총 기간 크기 중 훈련 시간 백분율 아니요 SageMaker HyperPod 훈련 연산자
training_manual_recovery_count 작업에 대해 수행된 총 수동 재시작 수 아니요 SageMaker HyperPod 훈련 연산자
training_manual_downtime_ms 수동 개입으로 인해 작업이 중단된 밀리초 단위의 총 시간 아니요 SageMaker HyperPod 훈련 연산자
training_auto_recovery_count 총 자동 복구 수 아니요 SageMaker HyperPod 훈련 연산자
training_auto_recovery_downtime 장애 복구 중 밀리초 단위의 총 인프라 오버헤드 시간 아니요 SageMaker HyperPod 훈련 연산자
training_fault_count 훈련 중에 발생한 총 장애 수 아니요 SageMaker HyperPod 훈련 연산자
training_fault_type_count 유형별 결함 분포 아니요 SageMaker HyperPod 훈련 연산자
training_fault_recovery_time_ms 각 장애 유형에 대한 밀리초 단위 복구 시간 아니요 SageMaker HyperPod 훈련 연산자
training_time_ms 실제 훈련에 소요된 밀리초 단위의 총 시간 아니요 SageMaker HyperPod 훈련 연산자

추론 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 추론 작업의 성능을 추적합니다.

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
model_invocations_total 모델에 대한 총 호출 요청 수 SageMaker HyperPod 추론 연산자
model_errors_total 모델 호출 중 총 오류 수 SageMaker HyperPod 추론 연산자
model_concurrent_requests 활성 동시 모델 요청 SageMaker HyperPod 추론 연산자
model_latency_milliseconds 밀리초 단위의 모델 호출 지연 시간 SageMaker HyperPod 추론 연산자
model_ttfb_milliseconds 밀리초 단위의 첫 번째 바이트 지연 시간 모델 SageMaker HyperPod 추론 연산자
TGI 이러한 지표를 사용하여 TGI의 성능을 모니터링하고, 배포를 자동으로 조정하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md 참조하십시오. 모델 컨테이너
LMI 이러한 지표를 사용하여 LMI의 성능을 모니터링하고 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md 참조하십시오. 모델 컨테이너

작업 거버넌스 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 작업 거버넌스 및 리소스 할당을 모니터링합니다.

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
쿠에우 https://kueue.sigs.k8s.io/docs/reference/metrics/ 참조하십시오. 아니요 쿠에우

조정 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터의 오토 스케일링 동작 및 성능을 모니터링합니다.

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
KEDA 연산자 지표 https://keda.sh/docs/2.17/integrations/prometheus/#operator 참조하십시오. 아니요 Kubernetes 이벤트 기반 Autoscaler(KEDA)
KEDA Webhook 지표 https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks 참조하십시오. 아니요 Kubernetes 이벤트 기반 Autoscaler(KEDA)
KEDA 지표 서버 지표 https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server 참조하십시오. 아니요 Kubernetes 이벤트 기반 Autoscaler(KEDA)

클러스터 지표

이러한 지표를 사용하여 전체 클러스터 상태 및 리소스 할당을 모니터링합니다.

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
클러스터 상태 Kubernetes API 서버 지표. https://kubernetes.io/docs/reference/instrumentation/metrics/ 참조하십시오. Kubernetes
Kubestate https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources 참조하십시오. 제한 사항 Kubernetes
KubeState 고급 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources 참조하십시오. 아니요 Kubernetes

인스턴스 지표

이러한 지표를 사용하여 개별 인스턴스 성능 및 상태를 모니터링합니다.

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
노드 지표 https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default 참조하십시오. Kubernetes
컨테이너 지표 Cadvisor에서 노출한 컨테이너 지표입니다. https://github.com/google/cadvisor 참조하십시오. Kubernetes

가속화된 컴퓨팅 지표

이러한 지표를 사용하여 클러스터에 있는 개별 가속 컴퓨팅 디바이스의 성능, 상태 및 사용률을 모니터링할 수 있습니다.

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
NVIDIA GPU DCGM 지표. https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv 참조하십시오. 제한 사항

NVIDIA Data Center GPU Manager(DCGM)

NVIDIA GPU(고급)

다음 CSV 파일에 주석 처리된 DCGM 지표:

https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv

아니요

NVIDIA Data Center GPU Manager(DCGM)

AWS 훈련 Neuron 지표. https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters 참조하십시오. 아니요 AWS Neuron Monitor

네트워크 지표

이러한 지표를 사용하여 클러스터에서 Elastic Fabric Adapter(EFA)의 성능과 상태를 모니터링합니다.

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
EFA https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md 참조하십시오. 아니요 Elastic Fabric Adapter

파일 시스템 지표

지표 이름 또는 유형 설명 기본적으로 활성화되어 있습니까? 지표 소스
파일 시스템 Amazon CloudWatch의 Amazon FSx for Lustre 지표:

Amazon CloudWatch를 사용한 모니터링.

Amazon FSx for Lustre