Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
SageMaker HyperPod metrik klaster
Amazon SageMaker HyperPod (SageMaker HyperPod) menerbitkan berbagai metrik di 9 kategori berbeda ke Layanan Terkelola Amazon untuk ruang kerja Prometheus Anda. Tidak semua metrik diaktifkan secara default atau ditampilkan di ruang kerja Grafana Terkelola Amazon Anda. Tabel berikut menunjukkan metrik mana yang diaktifkan secara default saat Anda menginstal add-on observabilitas, kategori mana yang memiliki metrik tambahan yang dapat diaktifkan untuk informasi klaster yang lebih terperinci, dan di mana metrik tersebut muncul di ruang kerja Grafana yang Dikelola Amazon.
Kategori metrik | Diaktifkan secara default? | Metrik lanjutan tambahan tersedia? | Tersedia di bawah dasbor Grafana mana? |
---|---|---|---|
Metrik pelatihan | Ya | Ya | Pelatihan |
Metrik inferensi | Ya | Tidak | Inferensi |
Metrik tata kelola tugas | Tidak | Ya | Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri. |
Metrik penskalaan | Tidak | Ya | Tidak ada. Kueri Layanan Terkelola Amazon Anda untuk ruang kerja Prometheus untuk membangun dasbor Anda sendiri. |
Metrik klaster | Ya | Ya | Klaster |
Metrik instans | Ya | Ya | Klaster |
Metrik komputasi yang dipercepat | Ya | Ya | Tugas, Cluster |
Metrik jaringan | Tidak | Ya | Klaster |
Sistem file | Ya | Tidak | Sistem file |
Tabel berikut menjelaskan metrik yang tersedia untuk memantau SageMaker HyperPod klaster Anda, yang diatur berdasarkan kategori.
Metrik pelatihan
Gunakan metrik ini untuk melacak kinerja tugas pelatihan yang dijalankan di SageMaker HyperPod cluster.
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
Metrik Kubeflow | https://github.com/kubeflow/pelatih |
Ya | Kubeflow |
Metrik pod Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Ya | Kubernetes |
training_uptime_percentage |
Persentase waktu pelatihan dari total ukuran jendela | Tidak | SageMaker HyperPod operator pelatihan |
training_manual_recovery_count |
Jumlah total restart manual yang dilakukan pada pekerjaan | Tidak | SageMaker HyperPod operator pelatihan |
training_manual_downtime_ms |
Total waktu dalam milidetik pekerjaan turun karena intervensi manual | Tidak | SageMaker HyperPod operator pelatihan |
training_auto_recovery_count |
Jumlah total pemulihan otomatis | Tidak | SageMaker HyperPod operator pelatihan |
training_auto_recovery_downtime |
Total waktu overhead infrastruktur dalam milidetik selama pemulihan kesalahan | Tidak | SageMaker HyperPod operator pelatihan |
training_fault_count |
Jumlah total kesalahan yang ditemui selama pelatihan | Tidak | SageMaker HyperPod operator pelatihan |
training_fault_type_count |
Distribusi kesalahan menurut jenis | Tidak | SageMaker HyperPod operator pelatihan |
training_fault_recovery_time_ms |
Waktu pemulihan dalam milidetik untuk setiap jenis kesalahan | Tidak | SageMaker HyperPod operator pelatihan |
training_time_ms |
Total waktu dalam milidetik yang dihabiskan dalam pelatihan aktual | Tidak | SageMaker HyperPod operator pelatihan |
Metrik inferensi
Gunakan metrik ini untuk melacak kinerja tugas inferensi di cluster. SageMaker HyperPod
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
model_invocations_total |
Jumlah total permintaan pemanggilan ke model | Ya | SageMaker HyperPod operator inferensi |
model_errors_total |
Jumlah total kesalahan selama pemanggilan model | Ya | SageMaker HyperPod operator inferensi |
model_concurrent_requests |
Permintaan model bersamaan aktif | Ya | SageMaker HyperPod operator inferensi |
model_latency_milliseconds |
Latensi pemanggilan model dalam milidetik | Ya | SageMaker HyperPod operator inferensi |
model_ttfb_milliseconds |
Model waktu untuk latensi byte pertama dalam milidetik | Ya | SageMaker HyperPod operator inferensi |
TGI | Metrik ini dapat digunakan untuk memantau kinerja TGI, penerapan skala otomatis, dan untuk membantu mengidentifikasi kemacetan. Untuk daftar rinci metrik, lihat https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README |
Ya | Wadah model |
LMI | Metrik ini dapat digunakan untuk memantau kinerja LMI, dan untuk membantu mengidentifikasi kemacetan. Untuk daftar rinci metrik, lihat https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README |
Ya | Wadah model |
Metrik tata kelola tugas
Gunakan metrik ini untuk memantau tata kelola tugas dan alokasi sumber daya di klaster. SageMaker HyperPod
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
Kueue | Lihat https://kueue.sigs.k8s. io/docs/reference/metrics |
Tidak | Kueue |
Metrik penskalaan
Gunakan metrik ini untuk memantau perilaku dan kinerja auto-scaling di klaster. SageMaker HyperPod
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
Metrik Operator KEDA | Lihat https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Tidak | Kubernetes Event Driven Autoscaler (KEDA) |
Metrik Webhook KEDA | Lihat https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhook |
Tidak | Kubernetes Event Driven Autoscaler (KEDA) |
Metrik server Metrik KEDA | Lihat https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server |
Tidak | Kubernetes Event Driven Autoscaler (KEDA) |
Metrik klaster
Gunakan metrik ini untuk memantau kesehatan klaster secara keseluruhan dan alokasi sumber daya.
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
Kesehatan cluster | Metrik server API Kubernetes. Lihat https://kubernetes. io/docs/reference/instrumentation/metrics |
Ya | Kubernetes |
Kubestate | Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Terbatas | Kubernetes |
KubeState Lanjutan | Lihat https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Tidak | Kubernetes |
Metrik instans
Gunakan metrik ini untuk memantau kinerja dan kesehatan instans individu.
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
Metrik Node | Lihat https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default |
Ya | Kubernetes |
Metrik Kontainer | Metrik kontainer diekspos oleh Cadvisor. Lihat https://github.com/google/cadvisor |
Ya | Kubernetes |
Metrik komputasi yang dipercepat
Gunakan metrik ini untuk memantau kinerja, kesehatan, dan pemanfaatan perangkat komputasi yang dipercepat individual di cluster Anda.
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
GPU NVIDIA | Metrik DCGM. Lihat https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv |
Terbatas |
Manajer GPU Pusat Data NVIDIA (DCGM) |
GPU NVIDIA (lanjutan) |
Metrik DCGM yang dikomentari dalam file CSV berikut: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp |
Tidak |
Manajer GPU Pusat Data NVIDIA (DCGM) |
AWS Trainium | Metrik neuron. Lihat https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html# neuron-monitor-nc-counters |
Tidak | AWS Monitor Neuron |
Metrik jaringan
Gunakan metrik ini untuk memantau kinerja dan kesehatan Adaptor Kain Elastis (EFA) di klaster Anda.
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
EFA | Lihat https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md |
Tidak | Elastic Fabric Adapter |
Metrik sistem file
Nama atau jenis metrik | Deskripsi | Diaktifkan secara default? | Sumber metrik |
---|---|---|---|
Sistem file | Metrik Amazon FSx untuk Lustre dari Amazon: CloudWatch | Ya | Amazon FSx untuk Lustre |