SageMaker HyperPod metrik klaster - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker HyperPod metrik klaster

Amazon SageMaker HyperPod (SageMaker HyperPod) menerbitkan berbagai metrik di 9 kategori berbeda ke Layanan Terkelola Amazon untuk ruang kerja Prometheus Anda. Tidak semua metrik diaktifkan secara default atau ditampilkan di ruang kerja Grafana Terkelola Amazon Anda. Tabel berikut menunjukkan metrik mana yang diaktifkan secara default saat Anda menginstal add-on observabilitas, kategori mana yang memiliki metrik tambahan yang dapat diaktifkan untuk informasi klaster yang lebih terperinci, dan di mana metrik tersebut muncul di ruang kerja Grafana yang Dikelola Amazon.

Kategori metrik Diaktifkan secara default? Metrik lanjutan tambahan tersedia? Tersedia di bawah dasbor Grafana mana?
Metrik pelatihan Ya Ya Pelatihan
Metrik inferensi Ya Tidak Inferensi
Metrik tata kelola tugas Tidak Ya Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri.
Metrik penskalaan Tidak Ya Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri.
Metrik klaster Ya Ya Klaster
Metrik instans Ya Ya Klaster
Metrik komputasi yang dipercepat Ya Ya Tugas, Cluster
Metrik jaringan Tidak Ya Klaster
Sistem file Ya Tidak Sistem file

Tabel berikut menjelaskan metrik yang tersedia untuk memantau SageMaker HyperPod klaster Anda, yang diatur berdasarkan kategori.

Metrik pelatihan

Gunakan metrik ini untuk melacak kinerja tugas pelatihan yang dijalankan di SageMaker HyperPod cluster.

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
Metrik Kubeflow https://github.com/kubeflow/pelatih Ya Kubeflow
Metrik pod Kubernetes https://github.com/kubernetes/kube-state-metrics Ya Kubernetes
training_uptime_percentage Persentase waktu pelatihan dari total ukuran jendela Tidak SageMaker HyperPod operator pelatihan
training_manual_recovery_count Jumlah total restart manual yang dilakukan pada pekerjaan Tidak SageMaker HyperPod operator pelatihan
training_manual_downtime_ms Total waktu dalam milidetik pekerjaan turun karena intervensi manual Tidak SageMaker HyperPod operator pelatihan
training_auto_recovery_count Jumlah total pemulihan otomatis Tidak SageMaker HyperPod operator pelatihan
training_auto_recovery_downtime Total waktu overhead infrastruktur dalam milidetik selama pemulihan kesalahan Tidak SageMaker HyperPod operator pelatihan
training_fault_count Jumlah total kesalahan yang ditemui selama pelatihan Tidak SageMaker HyperPod operator pelatihan
training_fault_type_count Distribusi kesalahan menurut jenis Tidak SageMaker HyperPod operator pelatihan
training_fault_recovery_time_ms Waktu pemulihan dalam milidetik untuk setiap jenis kesalahan Tidak SageMaker HyperPod operator pelatihan
training_time_ms Total waktu dalam milidetik yang dihabiskan dalam pelatihan aktual Tidak SageMaker HyperPod operator pelatihan

Metrik inferensi

Gunakan metrik ini untuk melacak kinerja tugas inferensi di cluster. SageMaker HyperPod

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
model_invocations_total Jumlah total permintaan pemanggilan ke model Ya SageMaker HyperPod operator inferensi
model_errors_total Jumlah total kesalahan selama pemanggilan model Ya SageMaker HyperPod operator inferensi
model_concurrent_requests Permintaan model bersamaan aktif Ya SageMaker HyperPod operator inferensi
model_latency_milliseconds Latensi pemanggilan model dalam milidetik Ya SageMaker HyperPod operator inferensi
model_ttfb_milliseconds Model waktu untuk latensi byte pertama dalam milidetik Ya SageMaker HyperPod operator inferensi
TGI Metrik ini dapat digunakan untuk memantau kinerja TGI, penerapan skala otomatis, dan untuk membantu mengidentifikasi kemacetan. Untuk daftar rinci metrik, lihat https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Ya Wadah model
LMI Metrik ini dapat digunakan untuk memantau kinerja LMI, dan untuk membantu mengidentifikasi kemacetan. Untuk daftar rinci metrik, lihat https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Ya Wadah model

Metrik tata kelola tugas

Gunakan metrik ini untuk memantau tata kelola tugas dan alokasi sumber daya di klaster. SageMaker HyperPod

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
Kueue Lihat https://kueue.sigs.k8s. io/docs/reference/metrics/. Tidak Kueue

Metrik penskalaan

Gunakan metrik ini untuk memantau perilaku dan kinerja auto-scaling di klaster. SageMaker HyperPod

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
Metrik Operator KEDA Lihat https://keda. sh/docs/2.17/integrations/prometheus/#operator. Tidak Kubernetes Event Driven Autoscaler (KEDA)
Metrik Webhook KEDA Lihat https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhook. Tidak Kubernetes Event Driven Autoscaler (KEDA)
Metrik server Metrik KEDA Lihat https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server. Tidak Kubernetes Event Driven Autoscaler (KEDA)

Metrik klaster

Gunakan metrik ini untuk memantau kesehatan klaster secara keseluruhan dan alokasi sumber daya.

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
Kesehatan cluster Metrik server API Kubernetes. Lihat https://kubernetes. io/docs/reference/instrumentation/metrics/. Ya Kubernetes
Kubestate Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Terbatas Kubernetes
KubeState Lanjutan Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. Tidak Kubernetes

Metrik instans

Gunakan metrik ini untuk memantau kinerja dan kesehatan instans individu.

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
Metrik Node Lihat https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default. Ya Kubernetes
Metrik Kontainer Metrik kontainer diekspos oleh Cadvisor. Lihat https://github.com/google/cadvisor. Ya Kubernetes

Metrik komputasi yang dipercepat

Gunakan metrik ini untuk memantau kinerja, kesehatan, dan pemanfaatan perangkat komputasi yang dipercepat individual di cluster Anda.

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
GPU NVIDIA Metrik DCGM. Lihat https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv. Terbatas

Manajer GPU Pusat Data NVIDIA (DCGM)

GPU NVIDIA (lanjutan)

Metrik DCGM yang dikomentari dalam file CSV berikut:

https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp

Tidak

Manajer GPU Pusat Data NVIDIA (DCGM)

AWS Trainium Metrik neuron. Lihat https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html# neuron-monitor-nc-counters. Tidak AWS Monitor Neuron

Metrik jaringan

Gunakan metrik ini untuk memantau kinerja dan kesehatan Adaptor Kain Elastis (EFA) di klaster Anda.

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
EFA Lihat https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Tidak Elastic Fabric Adapter

Metrik sistem file

Nama atau jenis metrik Deskripsi Diaktifkan secara default? Sumber metrik
Sistem file Metrik Amazon FSx untuk Lustre dari Amazon: CloudWatch

Pemantauan dengan Amazon CloudWatch.

Ya Amazon FSx untuk Lustre