SageMaker HyperPod 클러스터 지표 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod 클러스터 지표

Amazon SageMaker HyperPod(SageMaker HyperPod)는 아홉 가지 개별 범주의 다양한 지표를 Amazon Managed Service for Prometheus 작업 영역에 게시합니다. 모든 지표가 기본적으로 활성화되거나 Amazon Managed Grafana 작업 영역에 표시되는 것은 아닙니다. 다음 표에는 관찰성 추가 기능을 설치할 때 기본적으로 활성화되는 지표, 더 세분화된 클러스터 정보를 위해 활성화할 수 있는 추가 지표가 있는 범주, Amazon Managed Grafana 작업 영역에서 표시되는 위치가 나와 있습니다.

지표 범주 기본 활성화 여부 추가 고급 지표 사용 가능 여부 지표가 표시되는 Grafana 대시보드
훈련 지표 학습
추론 지표 아니요 Inference
태스크 거버넌스 지표 아니요 없음. Amazon Managed Service for Prometheus 작업 영역을 쿼리하여 자체 대시보드를 구축합니다.
규모 조정 지표 아니요 없음. Amazon Managed Service for Prometheus 작업 영역을 쿼리하여 자체 대시보드를 구축합니다.
클러스터 지표 Cluster
인스턴스 지표 Cluster
가속 컴퓨팅 지표 작업, 클러스터
네트워크 지표 아니요 Cluster
파일 시스템 아니요 파일 시스템

다음 표에서는 SageMaker HyperPod 클러스터를 모니터링하는 데 사용할 수 있는 지표를 설명하며, 지표가 범주별로 정리되어 있습니다.

훈련 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 실행되는 훈련 작업의 성능을 추적합니다.

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
Kubeflow 지표 https://github.com/kubeflow/trainer Kubeflow
Kubernetes 포드 지표 https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage 총 기간 중 훈련 시간 백분율 아니요 SageMaker HyperPod 훈련 운영자
training_manual_recovery_count 작업에 대해 수행된 총 수동 재시작 수 아니요 SageMaker HyperPod 훈련 운영자
training_manual_downtime_ms 수동 개입으로 인해 작업이 중단된 총 시간(밀리초) 아니요 SageMaker HyperPod 훈련 운영자
training_auto_recovery_count 총 자동 복구 수 아니요 SageMaker HyperPod 훈련 운영자
training_auto_recovery_downtime 장애 복구 중 총 인프라 오버헤드 시간(밀리초) 아니요 SageMaker HyperPod 훈련 운영자
training_fault_count 훈련 중 발생한 총 장애 수 아니요 SageMaker HyperPod 훈련 운영자
training_fault_type_count 유형별 장애 분포 아니요 SageMaker HyperPod 훈련 운영자
training_fault_recovery_time_ms 각 장애 유형에 대한 복구 시간(밀리초) 아니요 SageMaker HyperPod 훈련 운영자
training_time_ms 실제 훈련에 소요된 총 시간(밀리초) 아니요 SageMaker HyperPod 훈련 운영자

추론 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 추론 작업의 성능을 추적합니다.

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
model_invocations_total 모델에 대한 총 간접 호출 요청 수 SageMaker HyperPod 추론 운영자
model_errors_total 모델 간접 호출 중 총 오류 수 SageMaker HyperPod 추론 운영자
model_concurrent_requests 활성 동시 모델 요청 SageMaker HyperPod 추론 운영자
model_latency_milliseconds 모델 간접 호출 지연 시간(밀리초) SageMaker HyperPod 추론 운영자
model_ttfb_milliseconds 모델 첫 번째 바이트까지 지연 시간(밀리초) SageMaker HyperPod 추론 운영자
TGI 이러한 지표를 사용하여 TGI의 성능을 모니터링하고, 배포를 오토 스케일링하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md를 참조하세요. 모델 컨테이너
LMI 이러한 지표를 사용하여 LMI의 성능을 모니터링하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md를 참조하세요. 모델 컨테이너

태스크 거버넌스 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 태스크 거버넌스 및 리소스 할당을 모니터링합니다.

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
Kueue https://kueue.sigs.k8s.io/docs/reference/metrics/를 참조하세요. 아니요 Kueue

규모 조정 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터의 오토 스케일링 동작 및 성능을 모니터링합니다.

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
KEDA 운영자 지표 https://keda.sh/docs/2.17/integrations/prometheus/#operator를 참조하세요. 아니요 Kubernetes Event-driven Autoscaler(KEDA)
KEDA 웹후크 지표 https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks를 참조하세요. 아니요 Kubernetes Event-driven Autoscaler(KEDA)
KEDA Metrics 서버 지표 https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server를 참조하세요. 아니요 Kubernetes Event-driven Autoscaler(KEDA)

클러스터 지표

이러한 지표를 사용하여 전체 클러스터 상태 및 리소스 할당을 모니터링합니다.

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
클러스터 상태 Kubernetes API 서버 지표. https://kubernetes.io/docs/reference/instrumentation/metrics/를 참조하세요. Kubernetes
Kubestate https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources를 참조하세요. 제한 사항 Kubernetes
KubeState Advanced https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources를 참조하세요. 아니요 Kubernetes

인스턴스 지표

이러한 지표를 사용하여 개별 인스턴스 성능 및 상태를 모니터링합니다.

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
노드 지표 https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default를 참조하세요. Kubernetes
컨테이너 지표 Cadvisor에서 노출한 컨테이너 지표. https://github.com/google/cadvisor를 참조하세요. Kubernetes

가속 컴퓨팅 지표

이러한 지표를 사용하여 클러스터에 있는 개별 가속 컴퓨팅 디바이스의 성능, 상태 및 사용률을 모니터링할 수 있습니다.

참고

클러스터에서 MIG(다중 인스턴스 GPU)를 사용한 GPU 파티셔닝이 활성화되면 DCGM 지표는 개별 MIG 인스턴스를 모니터링하기 위한 파티션 수준 세부 수준을 자동으로 제공합니다. 각 MIG 파티션은 온도, 전력, 메모리 사용률 및 컴퓨팅 활동에 대한 자체 지표가 있는 별도의 GPU 디바이스로 노출됩니다. 이를 통해 각 GPU 파티션의 리소스 사용량과 상태를 독립적으로 추적하여 소수 GPU 리소스에서 실행되는 워크로드를 정확하게 모니터링할 수 있습니다. GPU 파티셔닝 구성에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod에서 GPU 파티션 사용.

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
Nvidia GPU DCGM 지표. https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv를 참조하세요. 제한 사항

NVIDIA Data Center GPU Manager(DCGM)

NVIDIA GPU(고급)

다음 CSV 파일에 주석 처리된 DCGM 지표:

https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv

아니요

NVIDIA Data Center GPU Manager(DCGM)

AWS훈련 Neuron 지표. https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters를 참조하세요. 아니요 AWSNeuron 모니터

네트워크 지표

이러한 지표를 사용하여 클러스터에서 Elastic Fabric Adapter(EFA)의 성능과 상태를 모니터링합니다.

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
EFA https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md를 참조하세요. 아니요 Elastic Fabric Adapter

파일 시스템 지표

지표 이름 또는 유형 설명 기본 활성화 여부 지표 소스
파일 시스템 Amazon CloudWatch의 Amazon FSx for Lustre 지표:

Amazon CloudWatch로 모니터링합니다.

Amazon FSx for Lustre