Kumpulkan metrik GPU NVIDIA - Amazon CloudWatch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kumpulkan metrik GPU NVIDIA

Anda dapat menggunakan CloudWatch agen untuk mengumpulkan metrik GPU NVIDIA dari server Linux. Untuk mengatur ini, tambahkan nvidia_gpu bagian di dalam metrics_collected bagian file konfigurasi CloudWatch agen. Untuk informasi selengkapnya, lihat Bagian Linux.

Selain itu, instans harus memiliki driver NVIDIA yang diinstal. Driver NVIDIA pada pra-instal pada beberapa Amazon Machine Images (AMIs). Jika tidak, Anda dapat melakukan instalasi driver secara manual. Untuk informasi selengkapnya, silakan lihat Install NVIDIA drivers pada instans Linux.

Metrik berikut dapat dikumpulkan. Semua metrik ini dikumpulkan tanpa CloudWatch Unit, tetapi Anda dapat menentukan unit untuk setiap metrik dengan menambahkan parameter ke file konfigurasi CloudWatch agen. Untuk informasi selengkapnya, lihat Bagian Linux.

Metrik Nama metrik di CloudWatch Deskripsi

utilization_gpu

nvidia_smi_utilization_gpu

Persentase waktu selama periode sampel terakhir di mana satu atau beberapa kernal pada GPU sedang berjalan.

temperature_gpu

nvidia_smi_temperature_gpu

Suhu GPU inti dalam derajat Celcius.

power_draw

nvidia_smi_power_draw

Daya tarik terukur terakhir untuk seluruh papan, dalam watt.

utilization_memory

nvidia_smi_utilization_memory

Persentase waktu selama periode sampel terakhir di mana memori global (perangkat) sedang dibaca atau ditulis.

fan_speed

nvidia_smi_fan_speed

Persentase kecepatan kipas maksimum yang saat ini dimaksudkan untuk dijalankan oleh kipas perangkat.

memory_total

nvidia_smi_memory_total

Memori total yang dilaporkan, dalam MB.

memory_used

nvidia_smi_memory_used

Memori yang digunakan, dalam MB.

memory_free

nvidia_smi_memory_free

Bebas memori, dalam MB.

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

Generasi tautan saat ini.

pcie_link_width_current

nvidia_smi_pcie_link_width_current

Lebar tautan saat ini.

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

Jumlah sesi encoder saat ini.

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

Rata-rata bergerak dari frame encode per detik.

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

Rata-rata bergerak latensi encode dalam mikrodetik.

clocks_current_graphics

nvidia_smi_clocks_current_graphics

Frekuensi jam grafis (shader) saat ini.

clocks_current_sm

nvidia_smi_clocks_current_sm

Frekuensi saat ini dari jam Streaming Multiprocessor (SM).

clocks_current_memory

nvidia_smi_clocks_current_memory

Frekuensi jam memori saat ini.

clocks_current_video

nvidia_smi_clocks_current_video

Frekuensi jam video (encoder plus decoder) saat ini.

Semua metrik ini dikumpulkan dengan dimensi berikut:

Dimensi Deskripsi

index

Pengidentifikasi unik untuk GPU di server ini. Merupakan indeks NVIDIA Management Library (NVML) perangkat.

name

Jenis GPU. Sebagai contoh, NVIDIA Tesla A100.

arch

Arsitektur server.