제한된 인스턴스 그룹의 지표 가용성 훈련 지표 추론 지표 태스크 거버넌스 지표 규모 조정 지표 클러스터 지표 인스턴스 지표 가속 컴퓨팅 지표 네트워크 지표 파일 시스템 지표

SageMaker HyperPod 클러스터 지표

Amazon SageMaker HyperPod(SageMaker HyperPod)는 아홉 가지 개별 범주의 다양한 지표를 Amazon Managed Service for Prometheus 작업 영역에 게시합니다. 모든 지표가 기본적으로 활성화되거나 Amazon Managed Grafana 작업 영역에 표시되는 것은 아닙니다. 다음 표에는 관찰성 추가 기능을 설치할 때 기본적으로 활성화되는 지표, 더 세분화된 클러스터 정보를 위해 활성화할 수 있는 추가 지표가 있는 범주, Amazon Managed Grafana 작업 영역에서 표시되는 위치가 나와 있습니다.

지표 범주	기본 활성화 여부	추가 고급 지표 사용 가능 여부	지표가 표시되는 Grafana 대시보드
훈련 지표	예	예	학습
추론 지표	예	아니요	Inference
태스크 거버넌스 지표	아니요	예	없음. Amazon Managed Service for Prometheus 작업 영역을 쿼리하여 자체 대시보드를 구축합니다.
규모 조정 지표	아니요	예	없음. Amazon Managed Service for Prometheus 작업 영역을 쿼리하여 자체 대시보드를 구축합니다.
클러스터 지표	예	예	Cluster
인스턴스 지표	예	예	Cluster
가속 컴퓨팅 지표	예	예	작업, 클러스터
네트워크 지표	아니요	예	Cluster
파일 시스템	예	아니요	파일 시스템

다음 표에서는 SageMaker HyperPod 클러스터를 모니터링하는 데 사용할 수 있는 지표를 설명하며, 지표가 범주별로 정리되어 있습니다.

제한된 인스턴스 그룹의 지표 가용성

클러스터에 제한된 인스턴스 그룹이 포함된 경우 다음과 같은 예외 및 고려 사항을 제외하고 대부분의 지표 범주를 제한된 노드에서 사용할 수 있습니다. 선택한 지표에 대한 알림을 설정할 수도 있습니다.

지표 범주	RIG 노드에서 사용할 수 있습니까?	참고
훈련 지표	예	Kubeflow 및 Kubernetes 포드 지표가 수집됩니다. 고급 훈련 KPI 지표(훈련 지표 에이전트)는 RIG 노드에서 사용할 수 없습니다.
추론 지표	아니요	추론 워크로드는 제한된 인스턴스 그룹에서 지원되지 않습니다.
태스크 거버넌스 지표	아니요	Kueue 지표는 있는 경우 표준 노드에서만 수집됩니다.
규모 조정 지표	아니요	KEDA 지표는 있는 경우 표준 노드에서만 수집됩니다.
클러스터 지표	예	Kube 상태 지표 및 API 서버 지표를 사용할 수 있습니다. Kube 상태 지표는 표준 노드에서 우선적으로 예약되지만 RIG 전용 클러스터의 제한된 노드에서 실행할 수 있습니다.
인스턴스 지표	예	Node Exporter 및 cAdvisor 지표는 제한된 노드를 포함한 모든 노드에서 수집됩니다.
가속 컴퓨팅 지표	예	DCGM Exporter는 GPU 지원 제한 노드에서 실행됩니다. Neuron Monitor는 고급 모드가 활성화된 경우 Neuron이 활성화된 제한된 노드에서 실행됩니다.
네트워크 지표	예	EFA Exporter는 고급 모드가 활성화된 경우 EFA가 활성화된 제한된 노드에서 실행됩니다.
파일 시스템 지표	예	FSx for Lustre 클러스터 사용률 지표는 제한된 인스턴스 그룹에서 지원됩니다.

참고

Fluent Bit를 사용한 컨테이너 로그 수집은 제한된 노드에 배포되지 않습니다. 제한된 노드의 클러스터 로그는 관찰성 추가 기능과 관계없이 SageMaker HyperPod 플랫폼을 통해 사용할 수 있습니다. 클러스터 로그 대시보드에서 이러한 로그를 볼 수 있습니다.

훈련 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 실행되는 훈련 작업의 성능을 추적합니다.

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
Kubeflow 지표	https://github.com/kubeflow/trainer	예	Kubeflow
Kubernetes 포드 지표	https://github.com/kubernetes/kube-state-metrics	예	Kubernetes
`training_uptime_percentage`	총 기간 중 훈련 시간 백분율	아니요	SageMaker HyperPod 훈련 운영자
`training_manual_recovery_count`	작업에 대해 수행된 총 수동 재시작 수	아니요	SageMaker HyperPod 훈련 운영자
`training_manual_downtime_ms`	수동 개입으로 인해 작업이 중단된 총 시간(밀리초)	아니요	SageMaker HyperPod 훈련 운영자
`training_auto_recovery_count`	총 자동 복구 수	아니요	SageMaker HyperPod 훈련 운영자
`training_auto_recovery_downtime`	장애 복구 중 총 인프라 오버헤드 시간(밀리초)	아니요	SageMaker HyperPod 훈련 운영자
`training_fault_count`	훈련 중 발생한 총 장애 수	아니요	SageMaker HyperPod 훈련 운영자
`training_fault_type_count`	유형별 장애 분포	아니요	SageMaker HyperPod 훈련 운영자
`training_fault_recovery_time_ms`	각 장애 유형에 대한 복구 시간(밀리초)	아니요	SageMaker HyperPod 훈련 운영자
`training_time_ms`	실제 훈련에 소요된 총 시간(밀리초)	아니요	SageMaker HyperPod 훈련 운영자

추론 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 추론 작업의 성능을 추적합니다.

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
`model_invocations_total`	모델에 대한 총 간접 호출 요청 수	예	SageMaker HyperPod 추론 운영자
`model_errors_total`	모델 간접 호출 중 총 오류 수	예	SageMaker HyperPod 추론 운영자
`model_concurrent_requests`	활성 동시 모델 요청	예	SageMaker HyperPod 추론 운영자
`model_latency_milliseconds`	모델 간접 호출 지연 시간(밀리초)	예	SageMaker HyperPod 추론 운영자
`model_ttfb_milliseconds`	모델 첫 번째 바이트까지 지연 시간(밀리초)	예	SageMaker HyperPod 추론 운영자
TGI	이러한 지표를 사용하여 TGI의 성능을 모니터링하고, 배포를 오토 스케일링하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md를 참조하세요.	예	모델 컨테이너
LMI	이러한 지표를 사용하여 LMI의 성능을 모니터링하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md를 참조하세요.	예	모델 컨테이너

태스크 거버넌스 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 태스크 거버넌스 및 리소스 할당을 모니터링합니다.

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
Kueue	https://kueue.sigs.k8s.io/docs/reference/metrics/를 참조하세요.	아니요	Kueue

규모 조정 지표

이러한 지표를 사용하여 SageMaker HyperPod 클러스터의 오토 스케일링 동작 및 성능을 모니터링합니다.

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
KEDA 운영자 지표	https://keda.sh/docs/2.17/integrations/prometheus/#operator를 참조하세요.	아니요	Kubernetes Event-driven Autoscaler(KEDA)
KEDA 웹후크 지표	https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks를 참조하세요.	아니요	Kubernetes Event-driven Autoscaler(KEDA)
KEDA Metrics 서버 지표	https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server를 참조하세요.	아니요	Kubernetes Event-driven Autoscaler(KEDA)

클러스터 지표

이러한 지표를 사용하여 전체 클러스터 상태 및 리소스 할당을 모니터링합니다.

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
클러스터 상태	Kubernetes API 서버 지표. https://kubernetes.io/docs/reference/instrumentation/metrics/를 참조하세요.	예	Kubernetes
Kubestate	https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources를 참조하세요.	제한 사항	Kubernetes
KubeState Advanced	https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources를 참조하세요.	아니요	Kubernetes

인스턴스 지표

이러한 지표를 사용하여 개별 인스턴스 성능 및 상태를 모니터링합니다.

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
노드 지표	https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default를 참조하세요.	예	Kubernetes
컨테이너 지표	Cadvisor에서 노출한 컨테이너 지표. https://github.com/google/cadvisor를 참조하세요.	예	Kubernetes

가속 컴퓨팅 지표

이러한 지표를 사용하여 클러스터에 있는 개별 가속 컴퓨팅 디바이스의 성능, 상태 및 사용률을 모니터링할 수 있습니다.

참고

클러스터에서 MIG(다중 인스턴스 GPU)를 사용한 GPU 파티셔닝이 활성화되면 DCGM 지표는 개별 MIG 인스턴스를 모니터링하기 위한 파티션 수준 세부 수준을 자동으로 제공합니다. 각 MIG 파티션은 온도, 전력, 메모리 사용률 및 컴퓨팅 활동에 대한 자체 지표가 있는 별도의 GPU 디바이스로 노출됩니다. 이를 통해 각 GPU 파티션의 리소스 사용량과 상태를 독립적으로 추적하여 소수 GPU 리소스에서 실행되는 워크로드를 정확하게 모니터링할 수 있습니다. GPU 파티셔닝 구성에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod에서 GPU 파티션 사용.

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
Nvidia GPU	DCGM 지표. https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv를 참조하세요.	제한 사항	NVIDIA Data Center GPU Manager(DCGM)
NVIDIA GPU(고급)	다음 CSV 파일에 주석 처리된 DCGM 지표: https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv	아니요	NVIDIA Data Center GPU Manager(DCGM)
AWS 훈련	Neuron 지표. https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters를 참조하세요.	아니요	AWS Neuron 모니터

네트워크 지표

이러한 지표를 사용하여 클러스터에서 Elastic Fabric Adapter(EFA)의 성능과 상태를 모니터링합니다.

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
EFA	https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md를 참조하세요.	아니요	Elastic Fabric Adapter

파일 시스템 지표

지표 이름 또는 유형	설명	기본 활성화 여부	지표 소스
파일 시스템	Amazon CloudWatch의 Amazon FSx for Lustre 지표: Amazon CloudWatch로 모니터링합니다.	예	Amazon FSx for Lustre

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

사용자 지정 지표

미리 구성된 알림