기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker HyperPod 클러스터 지표
Amazon SageMaker HyperPod(SageMaker HyperPod)는 아홉 가지 개별 범주의 다양한 지표를 Amazon Managed Service for Prometheus 작업 영역에 게시합니다. 모든 지표가 기본적으로 활성화되거나 Amazon Managed Grafana 작업 영역에 표시되는 것은 아닙니다. 다음 표에는 관찰성 추가 기능을 설치할 때 기본적으로 활성화되는 지표, 더 세분화된 클러스터 정보를 위해 활성화할 수 있는 추가 지표가 있는 범주, Amazon Managed Grafana 작업 영역에서 표시되는 위치가 나와 있습니다.
| 지표 범주 | 기본 활성화 여부 | 추가 고급 지표 사용 가능 여부 | 지표가 표시되는 Grafana 대시보드 |
|---|---|---|---|
| 훈련 지표 | 예 | 예 | 학습 |
| 추론 지표 | 예 | 아니요 | Inference |
| 태스크 거버넌스 지표 | 아니요 | 예 | 없음. Amazon Managed Service for Prometheus 작업 영역을 쿼리하여 자체 대시보드를 구축합니다. |
| 규모 조정 지표 | 아니요 | 예 | 없음. Amazon Managed Service for Prometheus 작업 영역을 쿼리하여 자체 대시보드를 구축합니다. |
| 클러스터 지표 | 예 | 예 | Cluster |
| 인스턴스 지표 | 예 | 예 | Cluster |
| 가속 컴퓨팅 지표 | 예 | 예 | 작업, 클러스터 |
| 네트워크 지표 | 아니요 | 예 | Cluster |
| 파일 시스템 | 예 | 아니요 | 파일 시스템 |
다음 표에서는 SageMaker HyperPod 클러스터를 모니터링하는 데 사용할 수 있는 지표를 설명하며, 지표가 범주별로 정리되어 있습니다.
훈련 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 실행되는 훈련 작업의 성능을 추적합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| Kubeflow 지표 | https://github.com/kubeflow/trainer |
예 | Kubeflow |
| Kubernetes 포드 지표 | https://github.com/kubernetes/kube-state-metrics |
예 | Kubernetes |
training_uptime_percentage |
총 기간 중 훈련 시간 백분율 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_manual_recovery_count |
작업에 대해 수행된 총 수동 재시작 수 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_manual_downtime_ms |
수동 개입으로 인해 작업이 중단된 총 시간(밀리초) | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_auto_recovery_count |
총 자동 복구 수 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_auto_recovery_downtime |
장애 복구 중 총 인프라 오버헤드 시간(밀리초) | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_fault_count |
훈련 중 발생한 총 장애 수 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_fault_type_count |
유형별 장애 분포 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_fault_recovery_time_ms |
각 장애 유형에 대한 복구 시간(밀리초) | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_time_ms |
실제 훈련에 소요된 총 시간(밀리초) | 아니요 | SageMaker HyperPod 훈련 운영자 |
추론 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 추론 작업의 성능을 추적합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
model_invocations_total |
모델에 대한 총 간접 호출 요청 수 | 예 | SageMaker HyperPod 추론 운영자 |
model_errors_total |
모델 간접 호출 중 총 오류 수 | 예 | SageMaker HyperPod 추론 운영자 |
model_concurrent_requests |
활성 동시 모델 요청 | 예 | SageMaker HyperPod 추론 운영자 |
model_latency_milliseconds |
모델 간접 호출 지연 시간(밀리초) | 예 | SageMaker HyperPod 추론 운영자 |
model_ttfb_milliseconds |
모델 첫 번째 바이트까지 지연 시간(밀리초) | 예 | SageMaker HyperPod 추론 운영자 |
| TGI | 이러한 지표를 사용하여 TGI의 성능을 모니터링하고, 배포를 오토 스케일링하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
예 | 모델 컨테이너 |
| LMI | 이러한 지표를 사용하여 LMI의 성능을 모니터링하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
예 | 모델 컨테이너 |
태스크 거버넌스 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 태스크 거버넌스 및 리소스 할당을 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| Kueue | https://kueue.sigs.k8s.io/docs/reference/metrics/ |
아니요 | Kueue |
규모 조정 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터의 오토 스케일링 동작 및 성능을 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| KEDA 운영자 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#operator |
아니요 | Kubernetes Event-driven Autoscaler(KEDA) |
| KEDA 웹후크 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks |
아니요 | Kubernetes Event-driven Autoscaler(KEDA) |
| KEDA Metrics 서버 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server |
아니요 | Kubernetes Event-driven Autoscaler(KEDA) |
클러스터 지표
이러한 지표를 사용하여 전체 클러스터 상태 및 리소스 할당을 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| 클러스터 상태 | Kubernetes API 서버 지표. https://kubernetes.io/docs/reference/instrumentation/metrics/ |
예 | Kubernetes |
| Kubestate | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources |
제한 사항 | Kubernetes |
| KubeState Advanced | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources |
아니요 | Kubernetes |
인스턴스 지표
이러한 지표를 사용하여 개별 인스턴스 성능 및 상태를 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| 노드 지표 | https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default |
예 | Kubernetes |
| 컨테이너 지표 | Cadvisor에서 노출한 컨테이너 지표. https://github.com/google/cadvisor |
예 | Kubernetes |
가속 컴퓨팅 지표
이러한 지표를 사용하여 클러스터에 있는 개별 가속 컴퓨팅 디바이스의 성능, 상태 및 사용률을 모니터링할 수 있습니다.
참고
클러스터에서 MIG(다중 인스턴스 GPU)를 사용한 GPU 파티셔닝이 활성화되면 DCGM 지표는 개별 MIG 인스턴스를 모니터링하기 위한 파티션 수준 세부 수준을 자동으로 제공합니다. 각 MIG 파티션은 온도, 전력, 메모리 사용률 및 컴퓨팅 활동에 대한 자체 지표가 있는 별도의 GPU 디바이스로 노출됩니다. 이를 통해 각 GPU 파티션의 리소스 사용량과 상태를 독립적으로 추적하여 소수 GPU 리소스에서 실행되는 워크로드를 정확하게 모니터링할 수 있습니다. GPU 파티셔닝 구성에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod에서 GPU 파티션 사용.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| Nvidia GPU | DCGM 지표. https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
제한 사항 |
NVIDIA Data Center GPU Manager(DCGM) |
|
NVIDIA GPU(고급) |
다음 CSV 파일에 주석 처리된 DCGM 지표: https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
아니요 |
NVIDIA Data Center GPU Manager(DCGM) |
| AWS훈련 | Neuron 지표. https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters |
아니요 | AWSNeuron 모니터 |
네트워크 지표
이러한 지표를 사용하여 클러스터에서 Elastic Fabric Adapter(EFA)의 성능과 상태를 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| EFA | https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md |
아니요 | Elastic Fabric Adapter |
파일 시스템 지표
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| 파일 시스템 | Amazon CloudWatch의 Amazon FSx for Lustre 지표: | 예 | Amazon FSx for Lustre |