Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Dasbor SageMaker HyperPod observabilitas Amazon
Topik ini menjelaskan cara melihat dasbor metrik untuk klaster Amazon SageMaker HyperPod (SageMaker HyperPod) Anda dan cara menambahkan pengguna baru ke dasbor. Topik ini juga menjelaskan berbagai jenis dasbor.
Mengakses dasbor
Untuk melihat metrik SageMaker HyperPod klaster Anda di Grafana Terkelola Amazon, lakukan langkah-langkah berikut:
Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/
. -
Buka halaman detail klaster Anda.
-
Pada tab Dasbor, cari bagian HyperPod Observabilitas, dan pilih Buka dasbor di Grafana.
Menambahkan pengguna baru ke ruang kerja Grafana yang Dikelola Amazon
Untuk informasi tentang cara menambahkan pengguna ke ruang kerja Grafana Terkelola Amazon, lihat Menggunakan Pusat Identitas AWS IAM dengan ruang kerja Grafana Terkelola Amazon di Panduan Pengguna Grafana Terkelola Amazon.
Dasbor observabilitas
Add-on SageMaker HyperPod observabilitas menyediakan lima dasbor yang saling terhubung di ruang kerja Grafana Amazon Managed default Anda. Setiap dasbor memberikan wawasan mendalam tentang sumber daya dan tugas yang berbeda dalam cluster untuk berbagai pengguna seperti ilmuwan data, insinyur pembelajaran mesin, dan administrator.
Dasbor tugas
Dasbor Tugas menyediakan pemantauan dan visualisasi metrik pemanfaatan sumber daya yang komprehensif untuk tugas. SageMaker HyperPod Panel utama menampilkan tabel terperinci yang mengelompokkan penggunaan sumber daya menurut tugas induk, menunjukkan CPU, GPU, dan pemanfaatan memori di seluruh Pod. Grafik deret waktu interaktif melacak penggunaan CPU, konsumsi memori sistem, persentase pemanfaatan GPU, dan penggunaan memori GPU untuk pod tertentu, memungkinkan Anda memantau tren kinerja dari waktu ke waktu. Dasbor memiliki kemampuan penyaringan yang kuat melalui variabel seperti nama cluster, namespace, tipe tugas, dan pod tertentu, sehingga mudah untuk menelusuri beban kerja tertentu. Solusi pemantauan ini sangat penting untuk mengoptimalkan alokasi sumber daya dan mempertahankan kinerja beban kerja pembelajaran mesin. SageMaker HyperPod
Dasbor pelatihan
Dasbor pelatihan menyediakan pemantauan komprehensif terhadap kesehatan tugas pelatihan, keandalan, dan metrik manajemen kesalahan. Dasbor menampilkan indikator kinerja utama termasuk jumlah pembuatan tugas, tingkat keberhasilan, dan persentase waktu aktif, bersama dengan pelacakan terperinci dari peristiwa restart otomatis dan manual. Ini menawarkan visualisasi rinci pola kesalahan melalui diagram lingkaran dan peta panas yang memecah insiden berdasarkan jenis dan latensi remediasi, memungkinkan Anda mengidentifikasi masalah berulang dan mengoptimalkan keandalan tugas. Antarmuka mencakup pemantauan real-time metrik penting seperti waktu pemulihan sistem dan latensi deteksi kesalahan, menjadikannya alat penting untuk menjaga ketersediaan beban kerja pelatihan yang tinggi. Selain itu, jendela tambahan 24 jam dasbor menyediakan konteks historis untuk menganalisis tren dan pola dalam kinerja tugas pelatihan, membantu tim secara proaktif mengatasi masalah potensial sebelum berdampak pada beban kerja produksi.
Dasbor inferensi
Dasbor inferensi menyediakan pemantauan komprehensif kinerja penerapan model dan metrik kesehatan di berbagai dimensi. Ini menampilkan ikhtisar terperinci tentang penerapan aktif, pemantauan tingkat permintaan secara real-time, persentase keberhasilan, dan metrik latensi, memungkinkan Anda melacak kinerja penyajian model dan mengidentifikasi potensi kemacetan. Dasbor mencakup panel khusus untuk metrik inferensi umum dan metrik khusus token untuk model bahasa, seperti time to first token (TTFT) dan throughput token, membuatnya sangat berharga untuk memantau penerapan model bahasa besar. Selain itu, ia menyediakan wawasan infrastruktur melalui pelacakan alokasi pod dan node, sambil menawarkan kemampuan analisis kesalahan terperinci untuk membantu menjaga ketersediaan dan kinerja beban kerja inferensi yang tinggi.
Dasbor cluster
Dasbor cluster memberikan pandangan komprehensif tentang kesehatan dan kinerja klaster, menawarkan visibilitas real-time ke sumber daya komputasi, memori, jaringan, dan penyimpanan di seluruh lingkungan Amazon SageMaker HyperPod (SageMaker HyperPod) Anda. Sekilas, Anda dapat melihat metrik penting termasuk instance total, pemanfaatan GPU, penggunaan memori, dan kinerja jaringan melalui antarmuka intuitif yang secara otomatis memperbarui data setiap beberapa detik. Dasbor disusun menjadi bagian logis, dimulai dengan ikhtisar klaster tingkat tinggi yang menampilkan metrik utama seperti persentase instans sehat dan jumlah sumber daya total, diikuti oleh bagian terperinci untuk kinerja GPU, pemanfaatan memori, statistik jaringan, dan metrik penyimpanan. Setiap bagian menampilkan grafik dan panel interaktif yang memungkinkan Anda menelusuri metrik tertentu, dengan rentang waktu yang dapat disesuaikan dan opsi pemfilteran berdasarkan nama cluster, instance, atau ID GPU.
Dasbor sistem file
Dasbor sistem file memberikan visibilitas komprehensif ke dalam metrik kinerja dan kesehatan sistem file (Amazon FSx for Lustre). Dasbor menampilkan metrik penyimpanan penting termasuk kapasitas gratis, penghematan deduplikasi, CPU/memory pemanfaatan, IOPS disk, throughput, dan koneksi klien di berbagai visualisasi. Ini memungkinkan Anda untuk memantau indikator kinerja tingkat sistem seperti penggunaan CPU dan memori, serta metrik khusus penyimpanan seperti read/write operasi dan pola pemanfaatan disk. Antarmuka mencakup kemampuan pemantauan peringatan dan grafik deret waktu terperinci untuk melacak tren kinerja dari waktu ke waktu, menjadikannya berharga untuk pemeliharaan proaktif dan perencanaan kapasitas. Selain itu, melalui cakupan metrik yang komprehensif, dasbor membantu mengidentifikasi potensi kemacetan, mengoptimalkan kinerja penyimpanan, dan memastikan operasi sistem file yang andal untuk beban kerja. SageMaker HyperPod