Ketersediaan metrik pada Grup Instance Terbatas Metrik pelatihan Metrik inferensi Metrik tata kelola tugas Metrik penskalaan Metrik klaster Metrik instans Metrik komputasi yang dipercepat Metrik jaringan Metrik sistem file

SageMaker HyperPod metrik klaster

Amazon SageMaker HyperPod (SageMaker HyperPod) menerbitkan berbagai metrik di 9 kategori berbeda ke Layanan Terkelola Amazon untuk ruang kerja Prometheus Anda. Tidak semua metrik diaktifkan secara default atau ditampilkan di ruang kerja Grafana Terkelola Amazon Anda. Tabel berikut menunjukkan metrik mana yang diaktifkan secara default saat Anda menginstal add-on observabilitas, kategori mana yang memiliki metrik tambahan yang dapat diaktifkan untuk informasi klaster yang lebih terperinci, dan di mana metrik tersebut muncul di ruang kerja Grafana yang Dikelola Amazon.

Kategori metrik	Diaktifkan secara default?	Metrik lanjutan tambahan tersedia?	Tersedia di bawah dasbor Grafana mana?
Metrik pelatihan	Ya	Ya	Pelatihan
Metrik inferensi	Ya	Tidak	Inferensi
Metrik tata kelola tugas	Tidak	Ya	Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri.
Metrik penskalaan	Tidak	Ya	Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri.
Metrik klaster	Ya	Ya	Kluster
Metrik instans	Ya	Ya	Kluster
Metrik komputasi yang dipercepat	Ya	Ya	Tugas, Cluster
Metrik jaringan	Tidak	Ya	Kluster
Sistem file	Ya	Tidak	Sistem file

Tabel berikut menjelaskan metrik yang tersedia untuk memantau SageMaker HyperPod klaster Anda, yang diatur berdasarkan kategori.

Ketersediaan metrik pada Grup Instance Terbatas

Jika klaster Anda berisi Grup Instance Terbatas, sebagian besar kategori metrik tersedia di node terbatas dengan pengecualian dan pertimbangan berikut. Anda juga dapat mengatur peringatan pada metrik apa pun pilihan Anda.

Kategori metrik	Tersedia di node RIG?	Catatan
Metrik pelatihan	Ya	Metrik pod Kubeflow dan Kubernetes dikumpulkan. Metrik KPI pelatihan lanjutan (dari Agen Metrik Pelatihan) tidak tersedia dari node RIG.
Metrik inferensi	Tidak	Beban kerja inferensi tidak didukung pada Grup Instance Terbatas.
Metrik tata kelola tugas	Tidak	Metrik Kueue dikumpulkan dari node standar saja, jika ada.
Metrik penskalaan	Tidak	Metrik KEDA dikumpulkan dari node standar saja, jika ada.
Metrik klaster	Ya	Metrik Status Kube dan metrik server API tersedia. Metrik Status Kube biasanya dijadwalkan pada node standar tetapi dapat berjalan pada node terbatas dalam cluster. RIG-only
Metrik instans	Ya	Node Exporter dan metrik cAdvisor dikumpulkan pada semua node termasuk node terbatas.
Metrik komputasi yang dipercepat	Ya	Eksportir DCGM berjalan pada GPU-enabled node terbatas. Neuron Monitor berjalan pada node Neuron-enabled terbatas saat mode lanjutan diaktifkan.
Metrik jaringan	Ya	EFA Exporter berjalan pada node EFA-enabled terbatas saat mode lanjutan diaktifkan.
Metrik sistem file	Ya	Metrik pemanfaatan klaster FSx for Lustre didukung pada Grup Instance Terbatas.

catatan

Koleksi log kontainer dengan Fluent Bit tidak diterapkan pada node terbatas. Log cluster dari node terbatas tersedia melalui SageMaker HyperPod platform secara independen dari add-on observabilitas. Anda dapat melihat log ini di dasbor Cluster Logs.

Metrik pelatihan

Gunakan metrik ini untuk melacak kinerja tugas pelatihan yang dijalankan di SageMaker HyperPod cluster.

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
Metrik Kubeflow	https://github.com/kubeflow/trainer	Ya	Kubeflow
Metrik pod Kubernetes	https://github.com/kubernetes/kube-state-metrics	Ya	Kubernetes
`training_uptime_percentage`	Persentase waktu pelatihan dari total ukuran jendela	Tidak	SageMaker HyperPod operator pelatihan
`training_manual_recovery_count`	Jumlah total restart manual yang dilakukan pada pekerjaan	Tidak	SageMaker HyperPod operator pelatihan
`training_manual_downtime_ms`	Total waktu dalam milidetik pekerjaan turun karena intervensi manual	Tidak	SageMaker HyperPod operator pelatihan
`training_auto_recovery_count`	Jumlah total pemulihan otomatis	Tidak	SageMaker HyperPod operator pelatihan
`training_auto_recovery_downtime`	Total waktu overhead infrastruktur dalam milidetik selama pemulihan kesalahan	Tidak	SageMaker HyperPod operator pelatihan
`training_fault_count`	Jumlah total kesalahan yang ditemui selama pelatihan	Tidak	SageMaker HyperPod operator pelatihan
`training_fault_type_count`	Distribusi kesalahan menurut jenis	Tidak	SageMaker HyperPod operator pelatihan
`training_fault_recovery_time_ms`	Waktu pemulihan dalam milidetik untuk setiap jenis kesalahan	Tidak	SageMaker HyperPod operator pelatihan
`training_time_ms`	Total waktu dalam milidetik yang dihabiskan dalam pelatihan aktual	Tidak	SageMaker HyperPod operator pelatihan

Metrik inferensi

Gunakan metrik ini untuk melacak kinerja tugas inferensi di cluster. SageMaker HyperPod

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
`model_invocations_total`	Jumlah total permintaan pemanggilan ke model	Ya	SageMaker HyperPod operator inferensi
`model_errors_total`	Jumlah total kesalahan selama pemanggilan model	Ya	SageMaker HyperPod operator inferensi
`model_concurrent_requests`	Permintaan model bersamaan aktif	Ya	SageMaker HyperPod operator inferensi
`model_latency_milliseconds`	Latensi pemanggilan model dalam milidetik	Ya	SageMaker HyperPod operator inferensi
`model_ttfb_milliseconds`	Model waktu untuk latensi byte pertama dalam milidetik	Ya	SageMaker HyperPod operator inferensi
TGI	Metrik ini dapat digunakan untuk memantau kinerja TGI, penerapan skala otomatis, dan untuk membantu mengidentifikasi kemacetan. Untuk daftar metrik yang terperinci, lihat https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md.	Ya	Wadah model
LMI	Metrik ini dapat digunakan untuk memantau kinerja LMI, dan untuk membantu mengidentifikasi kemacetan. Untuk daftar metrik yang terperinci, lihat https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md.	Ya	Wadah model

Metrik tata kelola tugas

Gunakan metrik ini untuk memantau tata kelola tugas dan alokasi sumber daya di klaster. SageMaker HyperPod

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
Kueue	Lihat https://kueue.sigs.k8s.io/docs/reference/metrics/.	Tidak	Kueue

Metrik penskalaan

Gunakan metrik ini untuk memantau perilaku dan kinerja auto-scaling di klaster. SageMaker HyperPod

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
Metrik Operator KEDA	Lihat https://keda.sh/docs/2.17/integrations/prometheus/#operator.	Tidak	Kubernetes Event-driven Autoscaler (KEDA)
Metrik Webhook KEDA	Lihat https://keda.sh/docs/2.17/integrations/prometheus/#admission -webhooks.	Tidak	Kubernetes Event-driven Autoscaler (KEDA)
Metrik server Metrik KEDA	Lihat https://keda.sh/docs/2.17/integrations/prometheus/#metrics -server.	Tidak	Kubernetes Event-driven Autoscaler (KEDA)

Metrik klaster

Gunakan metrik ini untuk memantau kesehatan klaster secara keseluruhan dan alokasi sumber daya.

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
Kesehatan cluster	Metrik server API Kubernetes. Lihat https://kubernetes.io/docs/reference/instrumentation/metrics/.	Ya	Kubernetes
Kubestate	Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources.	Terbatas	Kubernetes
KubeState Lanjutan	Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	Tidak	Kubernetes

Metrik instans

Gunakan metrik ini untuk memantau kinerja dan kesehatan instans individu.

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
Metrik Node	Lihat https://github.com/prometheus/node_exporter? tab=readme-ov-file #enabled -secara default.	Ya	Kubernetes
Metrik Kontainer	Metrik kontainer diekspos oleh Cadvisor. Lihat https://github.com/google/cadvisor.	Ya	Kubernetes

Metrik komputasi yang dipercepat

Gunakan metrik ini untuk memantau kinerja, kesehatan, dan pemanfaatan perangkat komputasi yang dipercepat individual di cluster Anda.

catatan

Saat partisi GPU dengan MIG (Multi-Instance GPU) diaktifkan di cluster Anda, metrik DCGM secara otomatis memberikan granularitas tingkat partisi untuk memantau instans MIG individual. Setiap partisi MIG diekspos sebagai perangkat GPU terpisah dengan metriknya sendiri untuk suhu, daya, pemanfaatan memori, dan aktivitas komputasi. Ini memungkinkan Anda melacak penggunaan sumber daya dan kesehatan untuk setiap partisi GPU secara independen, memungkinkan pemantauan beban kerja yang tepat yang berjalan pada sumber daya GPU fraksional. Untuk informasi selengkapnya tentang mengonfigurasi partisi GPU, lihat. Menggunakan partisi GPU di Amazon SageMaker HyperPod

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
GPU NVIDIA	Metrik DCGM. Lihat https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv.	Terbatas	Manajer GPU Pusat Data NVIDIA (DCGM)
GPU NVIDIA (lanjutan)	Metrik DCGM yang dikomentari dalam file CSV berikut: https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv	Tidak	Manajer GPU Pusat Data NVIDIA (DCGM)
AWS Trainium	Metrik neuron. Lihat https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron -monitor-nc-counter.	Tidak	AWS Monitor Neuron

Metrik jaringan

Gunakan metrik ini untuk memantau kinerja dan kesehatan Adaptor Kain Elastis (EFA) di klaster Anda.

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
EFA	Lihat https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	Tidak	Elastic Fabric Adapter

Metrik sistem file

Nama atau jenis metrik	Deskripsi	Diaktifkan secara default?	Sumber metrik
Sistem file	Metrik Amazon FSx for Lustre dari Amazon: CloudWatch Pemantauan dengan Amazon CloudWatch.	Ya	Amazon FSx for Lustre

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Metrik-metrik kustom

Peringatan yang telah dikonfigurasi sebelumnya