기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker HyperPod 클러스터 지표
Amazon SageMaker HyperPod(SageMaker HyperPod)는 9가지 개별 범주의 다양한 지표를 Amazon Managed Service for Prometheus 워크스페이스에 게시합니다. 모든 지표가 기본적으로 활성화되거나 Amazon Managed Grafana 워크스페이스에 표시되지는 않습니다. 다음 표에는 관찰성 추가 기능을 설치할 때 기본적으로 활성화되는 지표, 더 세분화된 클러스터 정보에 대해 활성화할 수 있는 추가 지표가 있는 범주, Amazon Managed Grafana 워크스페이스에서 표시되는 위치가 나와 있습니다.
지표 범주 | 기본적으로 활성화되어 있습니까? | 추가 고급 지표를 사용할 수 있나요? | 어떤 Grafana 대시보드에서 사용할 수 있나요? |
---|---|---|---|
훈련 지표 | 예 | 예 | 학습 |
추론 지표 | 예 | 아니요 | Inference |
작업 거버넌스 지표 | 아니요 | 예 | 없음. Amazon Managed Service for Prometheus 워크스페이스를 쿼리하여 자체 대시보드를 빌드합니다. |
조정 지표 | 아니요 | 예 | 없음. Amazon Managed Service for Prometheus 워크스페이스를 쿼리하여 자체 대시보드를 빌드합니다. |
클러스터 지표 | 예 | 예 | 클러스터 |
인스턴스 지표 | 예 | 예 | 클러스터 |
가속화된 컴퓨팅 지표 | 예 | 예 | 작업, 클러스터 |
네트워크 지표 | 아니요 | 예 | 클러스터 |
파일 시스템 | 예 | 아니요 | 파일 시스템 |
다음 표에서는 범주별로 구성된 SageMaker HyperPod 클러스터를 모니터링하는 데 사용할 수 있는 지표를 설명합니다.
훈련 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 실행되는 훈련 작업의 성능을 추적합니다.
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
Kubeflow 지표 | https://github.com/kubeflow/trainer |
예 | Kubeflow |
Kubernetes 포드 지표 | https://github.com/kubernetes/kube-state-metrics |
예 | Kubernetes |
training_uptime_percentage |
총 기간 크기 중 훈련 시간 백분율 | 아니요 | SageMaker HyperPod 훈련 연산자 |
training_manual_recovery_count |
작업에 대해 수행된 총 수동 재시작 수 | 아니요 | SageMaker HyperPod 훈련 연산자 |
training_manual_downtime_ms |
수동 개입으로 인해 작업이 중단된 밀리초 단위의 총 시간 | 아니요 | SageMaker HyperPod 훈련 연산자 |
training_auto_recovery_count |
총 자동 복구 수 | 아니요 | SageMaker HyperPod 훈련 연산자 |
training_auto_recovery_downtime |
장애 복구 중 밀리초 단위의 총 인프라 오버헤드 시간 | 아니요 | SageMaker HyperPod 훈련 연산자 |
training_fault_count |
훈련 중에 발생한 총 장애 수 | 아니요 | SageMaker HyperPod 훈련 연산자 |
training_fault_type_count |
유형별 결함 분포 | 아니요 | SageMaker HyperPod 훈련 연산자 |
training_fault_recovery_time_ms |
각 장애 유형에 대한 밀리초 단위 복구 시간 | 아니요 | SageMaker HyperPod 훈련 연산자 |
training_time_ms |
실제 훈련에 소요된 밀리초 단위의 총 시간 | 아니요 | SageMaker HyperPod 훈련 연산자 |
추론 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 추론 작업의 성능을 추적합니다.
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
model_invocations_total |
모델에 대한 총 호출 요청 수 | 예 | SageMaker HyperPod 추론 연산자 |
model_errors_total |
모델 호출 중 총 오류 수 | 예 | SageMaker HyperPod 추론 연산자 |
model_concurrent_requests |
활성 동시 모델 요청 | 예 | SageMaker HyperPod 추론 연산자 |
model_latency_milliseconds |
밀리초 단위의 모델 호출 지연 시간 | 예 | SageMaker HyperPod 추론 연산자 |
model_ttfb_milliseconds |
밀리초 단위의 첫 번째 바이트 지연 시간 모델 | 예 | SageMaker HyperPod 추론 연산자 |
TGI | 이러한 지표를 사용하여 TGI의 성능을 모니터링하고, 배포를 자동으로 조정하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
예 | 모델 컨테이너 |
LMI | 이러한 지표를 사용하여 LMI의 성능을 모니터링하고 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
예 | 모델 컨테이너 |
작업 거버넌스 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 작업 거버넌스 및 리소스 할당을 모니터링합니다.
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
쿠에우 | https://kueue.sigs.k8s.io/docs/reference/metrics/ |
아니요 | 쿠에우 |
조정 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터의 오토 스케일링 동작 및 성능을 모니터링합니다.
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
KEDA 연산자 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#operator |
아니요 | Kubernetes 이벤트 기반 Autoscaler(KEDA) |
KEDA Webhook 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks |
아니요 | Kubernetes 이벤트 기반 Autoscaler(KEDA) |
KEDA 지표 서버 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server |
아니요 | Kubernetes 이벤트 기반 Autoscaler(KEDA) |
클러스터 지표
이러한 지표를 사용하여 전체 클러스터 상태 및 리소스 할당을 모니터링합니다.
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
클러스터 상태 | Kubernetes API 서버 지표. https://kubernetes.io/docs/reference/instrumentation/metrics/ |
예 | Kubernetes |
Kubestate | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources |
제한 사항 | Kubernetes |
KubeState 고급 | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources |
아니요 | Kubernetes |
인스턴스 지표
이러한 지표를 사용하여 개별 인스턴스 성능 및 상태를 모니터링합니다.
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
노드 지표 | https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default |
예 | Kubernetes |
컨테이너 지표 | Cadvisor에서 노출한 컨테이너 지표입니다. https://github.com/google/cadvisor |
예 | Kubernetes |
가속화된 컴퓨팅 지표
이러한 지표를 사용하여 클러스터에 있는 개별 가속 컴퓨팅 디바이스의 성능, 상태 및 사용률을 모니터링할 수 있습니다.
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
NVIDIA GPU | DCGM 지표. https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
제한 사항 |
NVIDIA Data Center GPU Manager(DCGM) |
NVIDIA GPU(고급) |
다음 CSV 파일에 주석 처리된 DCGM 지표: https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
아니요 |
NVIDIA Data Center GPU Manager(DCGM) |
AWS 훈련 | Neuron 지표. https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters |
아니요 | AWS Neuron Monitor |
네트워크 지표
이러한 지표를 사용하여 클러스터에서 Elastic Fabric Adapter(EFA)의 성능과 상태를 모니터링합니다.
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
EFA | https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md |
아니요 | Elastic Fabric Adapter |
파일 시스템 지표
지표 이름 또는 유형 | 설명 | 기본적으로 활성화되어 있습니까? | 지표 소스 |
---|---|---|---|
파일 시스템 | Amazon CloudWatch의 Amazon FSx for Lustre 지표: | 예 | Amazon FSx for Lustre |