기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker HyperPod 클러스터 지표
Amazon SageMaker HyperPod(SageMaker HyperPod)는 아홉 가지 개별 범주의 다양한 지표를 Amazon Managed Service for Prometheus 작업 영역에 게시합니다. 모든 지표가 기본적으로 활성화되거나 Amazon Managed Grafana 작업 영역에 표시되는 것은 아닙니다. 다음 표에는 관찰성 추가 기능을 설치할 때 기본적으로 활성화되는 지표, 더 세분화된 클러스터 정보를 위해 활성화할 수 있는 추가 지표가 있는 범주, Amazon Managed Grafana 작업 영역에서 표시되는 위치가 나와 있습니다.
| 지표 범주 | 기본 활성화 여부 | 추가 고급 지표 사용 가능 여부 | 지표가 표시되는 Grafana 대시보드 |
|---|---|---|---|
| 훈련 지표 | 예 | 예 | 학습 |
| 추론 지표 | 예 | 아니요 | Inference |
| 태스크 거버넌스 지표 | 아니요 | 예 | 없음. Amazon Managed Service for Prometheus 작업 영역을 쿼리하여 자체 대시보드를 구축합니다. |
| 규모 조정 지표 | 아니요 | 예 | 없음. Amazon Managed Service for Prometheus 작업 영역을 쿼리하여 자체 대시보드를 구축합니다. |
| 클러스터 지표 | 예 | 예 | Cluster |
| 인스턴스 지표 | 예 | 예 | Cluster |
| 가속 컴퓨팅 지표 | 예 | 예 | 작업, 클러스터 |
| 네트워크 지표 | 아니요 | 예 | Cluster |
| 파일 시스템 | 예 | 아니요 | 파일 시스템 |
다음 표에서는 SageMaker HyperPod 클러스터를 모니터링하는 데 사용할 수 있는 지표를 설명하며, 지표가 범주별로 정리되어 있습니다.
제한된 인스턴스 그룹의 지표 가용성
클러스터에 제한된 인스턴스 그룹이 포함된 경우 대부분의 지표 범주는 다음과 같은 예외 및 고려 사항을 제외하고 제한된 노드에서 사용할 수 있습니다. 선택한 지표에 대한 알림을 설정할 수도 있습니다.
| 지표 범주 | RIG 노드에서 사용할 수 있습니까? | 참고 |
|---|---|---|
| 훈련 지표 | 예 | Kubeflow 및 Kubernetes 포드 지표가 수집됩니다. 고급 훈련 KPI 지표(훈련 지표 에이전트)는 RIG 노드에서 사용할 수 없습니다. |
| 추론 지표 | 아니요 | 추론 워크로드는 제한된 인스턴스 그룹에서 지원되지 않습니다. |
| 태스크 거버넌스 지표 | 아니요 | Kueue 지표는 있는 경우 표준 노드에서만 수집됩니다. |
| 규모 조정 지표 | 아니요 | KEDA 지표는 있는 경우 표준 노드에서만 수집됩니다. |
| 클러스터 지표 | 예 | Kube 상태 지표 및 API 서버 지표를 사용할 수 있습니다. Kube 상태 지표는 표준 노드에서 우선적으로 예약되지만 RIG 전용 클러스터의 제한된 노드에서 실행할 수 있습니다. |
| 인스턴스 지표 | 예 | Node Exporter 및 cAdvisor 지표는 제한된 노드를 포함한 모든 노드에서 수집됩니다. |
| 가속 컴퓨팅 지표 | 예 | DCGM Exporter는 GPU 지원 제한 노드에서 실행됩니다. Neuron Monitor는 고급 모드가 활성화된 경우 Neuron이 활성화된 제한된 노드에서 실행됩니다. |
| 네트워크 지표 | 예 | EFA Exporter는 고급 모드가 활성화된 경우 EFA가 활성화된 제한된 노드에서 실행됩니다. |
| 파일 시스템 지표 | 예 | FSx for Lustre 클러스터 사용률 지표는 제한된 인스턴스 그룹에서 지원됩니다. |
참고
Fluent Bit를 사용한 컨테이너 로그 수집은 제한된 노드에 배포되지 않습니다. 제한된 노드의 클러스터 로그는 관찰성 추가 기능과 관계없이 SageMaker HyperPod 플랫폼을 통해 사용할 수 있습니다. 클러스터 로그 대시보드에서 이러한 로그를 볼 수 있습니다.
훈련 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 실행되는 훈련 작업의 성능을 추적합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| Kubeflow 지표 | https://github.com/kubeflow/trainer |
예 | Kubeflow |
| Kubernetes 포드 지표 | https://github.com/kubernetes/kube-state-metrics |
예 | Kubernetes |
training_uptime_percentage |
총 기간 중 훈련 시간 백분율 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_manual_recovery_count |
작업에 대해 수행된 총 수동 재시작 수 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_manual_downtime_ms |
수동 개입으로 인해 작업이 중단된 총 시간(밀리초) | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_auto_recovery_count |
총 자동 복구 수 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_auto_recovery_downtime |
장애 복구 중 총 인프라 오버헤드 시간(밀리초) | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_fault_count |
훈련 중 발생한 총 장애 수 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_fault_type_count |
유형별 장애 분포 | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_fault_recovery_time_ms |
각 장애 유형에 대한 복구 시간(밀리초) | 아니요 | SageMaker HyperPod 훈련 운영자 |
training_time_ms |
실제 훈련에 소요된 총 시간(밀리초) | 아니요 | SageMaker HyperPod 훈련 운영자 |
추론 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 추론 작업의 성능을 추적합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
model_invocations_total |
모델에 대한 총 간접 호출 요청 수 | 예 | SageMaker HyperPod 추론 운영자 |
model_errors_total |
모델 간접 호출 중 총 오류 수 | 예 | SageMaker HyperPod 추론 운영자 |
model_concurrent_requests |
활성 동시 모델 요청 | 예 | SageMaker HyperPod 추론 운영자 |
model_latency_milliseconds |
모델 간접 호출 지연 시간(밀리초) | 예 | SageMaker HyperPod 추론 운영자 |
model_ttfb_milliseconds |
모델 첫 번째 바이트까지 지연 시간(밀리초) | 예 | SageMaker HyperPod 추론 운영자 |
| TGI | 이러한 지표를 사용하여 TGI의 성능을 모니터링하고, 배포를 오토 스케일링하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
예 | 모델 컨테이너 |
| LMI | 이러한 지표를 사용하여 LMI의 성능을 모니터링하고, 병목 현상을 식별할 수 있습니다. 자세한 지표 목록은 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
예 | 모델 컨테이너 |
태스크 거버넌스 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터에서 태스크 거버넌스 및 리소스 할당을 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| Kueue | https://kueue.sigs.k8s.io/docs/reference/metrics/ |
아니요 | Kueue |
규모 조정 지표
이러한 지표를 사용하여 SageMaker HyperPod 클러스터의 오토 스케일링 동작 및 성능을 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| KEDA 운영자 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#operator |
아니요 | Kubernetes Event-driven Autoscaler(KEDA) |
| KEDA 웹후크 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks |
아니요 | Kubernetes Event-driven Autoscaler(KEDA) |
| KEDA Metrics 서버 지표 | https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server |
아니요 | Kubernetes Event-driven Autoscaler(KEDA) |
클러스터 지표
이러한 지표를 사용하여 전체 클러스터 상태 및 리소스 할당을 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| 클러스터 상태 | Kubernetes API 서버 지표. https://kubernetes.io/docs/reference/instrumentation/metrics/ |
예 | Kubernetes |
| Kubestate | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources |
제한 사항 | Kubernetes |
| KubeState Advanced | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources |
아니요 | Kubernetes |
인스턴스 지표
이러한 지표를 사용하여 개별 인스턴스 성능 및 상태를 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| 노드 지표 | https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default |
예 | Kubernetes |
| 컨테이너 지표 | Cadvisor에서 노출한 컨테이너 지표. https://github.com/google/cadvisor |
예 | Kubernetes |
가속 컴퓨팅 지표
이러한 지표를 사용하여 클러스터에 있는 개별 가속 컴퓨팅 디바이스의 성능, 상태 및 사용률을 모니터링할 수 있습니다.
참고
클러스터에서 MIG(다중 인스턴스 GPU)를 사용한 GPU 파티셔닝이 활성화되면 DCGM 지표는 개별 MIG 인스턴스를 모니터링하기 위한 파티션 수준 세부 수준을 자동으로 제공합니다. 각 MIG 파티션은 온도, 전력, 메모리 사용률 및 컴퓨팅 활동에 대한 자체 지표가 있는 별도의 GPU 디바이스로 노출됩니다. 이를 통해 각 GPU 파티션의 리소스 사용량과 상태를 독립적으로 추적하여 소수 GPU 리소스에서 실행되는 워크로드를 정확하게 모니터링할 수 있습니다. GPU 파티셔닝 구성에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod에서 GPU 파티션 사용.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| Nvidia GPU | DCGM 지표. https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
제한 사항 |
NVIDIA Data Center GPU Manager(DCGM) |
|
NVIDIA GPU(고급) |
다음 CSV 파일에 주석 처리된 DCGM 지표: https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
아니요 |
NVIDIA Data Center GPU Manager(DCGM) |
| AWS 훈련 | Neuron 지표. https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters |
아니요 | AWS Neuron Monitor |
네트워크 지표
이러한 지표를 사용하여 클러스터에서 Elastic Fabric Adapter(EFA)의 성능과 상태를 모니터링합니다.
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| EFA | https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md |
아니요 | Elastic Fabric Adapter |
파일 시스템 지표
| 지표 이름 또는 유형 | 설명 | 기본 활성화 여부 | 지표 소스 |
|---|---|---|---|
| 파일 시스템 | Amazon CloudWatch의 Amazon FSx for Lustre 지표: | 예 | Amazon FSx for Lustre |