Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Siapkan dasbor pemantauan Grafana untuk AWS ParallelCluster
Dario La Porta dan William Lu, Amazon Web Services
Ringkasan
AWS ParallelCluster membantu Anda menerapkan dan mengelola klaster komputasi kinerja tinggi (HPC). Ini mendukung penjadwal pekerjaan sumber terbuka AWS Batch dan Slurm. Meskipun AWS ParallelCluster terintegrasi dengan Amazon CloudWatch untuk pencatatan dan metrik, AWS tidak menyediakan dasbor pemantauan untuk beban kerja.
Dasbor Grafana untuk AWS ParallelCluster
Mendukung AWS ParallelCluster v3
Menggunakan versi terbaru dari paket open source, termasuk Prometheus, Grafana, Prometheus Slurm Exporter, dan NVIDIA DCGM-Exporter
Meningkatkan jumlah inti CPU dan GPUs yang digunakan pekerjaan Slurm
Menambahkan dasbor pemantauan pekerjaan
Meningkatkan dasbor pemantauan node GPU untuk node dengan 4 atau 8 unit pemrosesan grafis () GPUs
Versi solusi yang disempurnakan ini telah diimplementasikan dan diverifikasi di lingkungan produksi HPC pelanggan AWS.
Prasyarat dan batasan
Prasyarat
AWS ParallelCluster CLI, diinstal dan dikonfigurasi.
Konfigurasi jaringan yang didukung untuk AWS ParallelCluster. Pola ini menggunakan AWS ParallelCluster menggunakan dua konfigurasi subnet, yang memerlukan subnet publik, subnet pribadi, gateway internet, dan gateway NAT.
Semua node ParallelCluster kluster AWS harus memiliki akses internet. Ini diperlukan agar skrip instalasi dapat mengunduh perangkat lunak open source dan gambar Docker.
Sebuah key pair di Amazon Elastic Compute Cloud (Amazon EC2). Sumber daya yang memiliki key pair ini memiliki akses Secure Shell (SSH) ke head node.
Batasan
Pola ini dirancang untuk mendukung Ubuntu 20.04 LTS. Jika Anda menggunakan versi Ubuntu yang berbeda atau jika Anda menggunakan Amazon Linux atau CentOS, maka Anda perlu memodifikasi skrip yang disediakan dengan solusi ini. Modifikasi ini tidak termasuk dalam pola ini.
Versi produk
Ubuntu 20.04 LTS
ParallelCluster 3.X
Pertimbangan penagihan dan biaya
Solusi yang diterapkan dalam pola ini tidak tercakup oleh tingkat gratis. Biaya berlaku untuk Amazon EC2, Amazon FSx untuk Lustre, gateway NAT di Amazon VPC, dan Amazon Route 53.
Arsitektur
Arsitektur target
Diagram berikut menunjukkan bagaimana pengguna dapat mengakses dasbor pemantauan untuk AWS ParallelCluster di node kepala. Node kepala menjalankan NICE DCV, Prometheus, Grafana, Prometheus Slurm Exporter, Prometheus Node Exporter, dan NGINX Open Source. Node komputasi menjalankan Prometheus Node Exporter, dan mereka juga menjalankan NVIDIA DCGM-Exporter jika node berisi. GPUs Node kepala mengambil informasi dari node komputasi dan menampilkan data tersebut di dasbor Grafana.

Dalam kebanyakan kasus, node kepala tidak banyak dimuat karena penjadwal pekerjaan tidak memerlukan sejumlah besar CPU atau memori. Pengguna mengakses dasbor pada node kepala dengan menggunakan SSL pada port 443.
Semua pemirsa resmi dapat melihat dasbor pemantauan secara anonim. Hanya administrator Grafana yang dapat memodifikasi dasbor. Anda mengonfigurasi kata sandi untuk administrator Grafana dalam file. aws-parallelcluster-monitoring/docker-compose/docker-compose.head.yml
Alat
Layanan AWS
NICE DCV adalah protokol tampilan jarak jauh berkinerja tinggi yang membantu Anda mengirimkan desktop jarak jauh dan streaming aplikasi dari cloud atau pusat data apa pun ke perangkat apa pun, dalam berbagai kondisi jaringan.
AWS ParallelCluster membantu Anda menerapkan dan mengelola klaster komputasi kinerja tinggi (HPC). Ini mendukung penjadwal pekerjaan sumber terbuka AWS Batch dan Slurm.
Amazon Simple Storage Service (Amazon S3) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.
Amazon Virtual Private Cloud (Amazon VPC) membantu Anda meluncurkan sumber daya AWS ke jaringan virtual yang telah Anda tentukan.
Alat-alat lainnya
Docker
adalah seperangkat produk platform as a service (PaaS) yang menggunakan virtualisasi pada tingkat sistem operasi untuk mengirimkan perangkat lunak dalam wadah. Grafana
adalah perangkat lunak open source yang membantu Anda menanyakan, memvisualisasikan, memperingatkan, dan menjelajahi metrik, log, dan jejak. NGINX Open Source
adalah server web open source dan reverse proxy. NVIDIA Data Center GPU Manager (DCGM)
adalah seperangkat alat untuk mengelola dan memantau unit pemrosesan grafis pusat data NVIDIA (GPUs) di lingkungan cluster. Dalam pola ini, Anda menggunakan DCGM-Exporter, yang membantu Anda mengekspor metrik GPU dari Prometheus. Prometheus
adalah toolkit pemantauan sistem open source yang mengumpulkan dan menyimpan metriknya sebagai data deret waktu dengan pasangan nilai kunci terkait, yang disebut label. Dalam pola ini, Anda juga menggunakan Prometheus Slurm Exporter untuk mengumpulkan dan mengekspor metrik, dan Anda menggunakan Prometheus Node Exporter untuk mengekspor metrik dari node komputasi. Ubuntu
adalah sistem operasi berbasis Linux open source yang dirancang untuk server perusahaan, desktop, lingkungan cloud, dan IoT.
Repositori kode
Kode untuk pola ini tersedia di GitHub pcluster-monitoring-dashboard
Epik
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Buat ember S3. | Buat bucket Amazon S3. Anda menggunakan bucket ini untuk menyimpan skrip konfigurasi. Untuk petunjuknya, lihat Membuat bucket di dokumentasi Amazon S3. | AWS Umum |
Kloning repositori. | Kloning GitHub pcluster-monitoring-dashboard
| DevOps insinyur |
Buat kata sandi admin. |
| Skrip Shell Linux |
Salin file yang diperlukan ke dalam ember S3. | Salin skrip post_install.sh | AWS Umum |
Konfigurasikan grup keamanan tambahan untuk node kepala. |
| Administrator AWS |
Konfigurasikan kebijakan IAM untuk node kepala. | Buat kebijakan berbasis identitas untuk node kepala. Kebijakan ini memungkinkan node untuk mengambil data metrik dari Amazon CloudWatch. GitHub Repo berisi contoh kebijakan | Administrator AWS |
Konfigurasikan kebijakan IAM untuk node komputasi. | Buat kebijakan berbasis identitas untuk node komputasi. Kebijakan ini memungkinkan node untuk membuat tag yang berisi ID pekerjaan dan pemilik pekerjaan. GitHub Repo berisi contoh kebijakan Jika Anda menggunakan file contoh yang disediakan, ganti nilai berikut:
| Administrator AWS |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Ubah file template cluster yang disediakan. | Buat ParallelCluster klaster AWS. Gunakan file template CloudFormation AWS cluster.yaml
| Administrator AWS |
Buat cluster. | Di AWS ParallelCluster CLI, masukkan perintah berikut. Ini menyebarkan CloudFormation template dan membuat cluster. Untuk informasi selengkapnya tentang perintah ini, lihat pcluster create-cluster di dokumentasi AWS. ParallelCluster
| Administrator AWS |
Pantau pembuatan cluster. | Masukkan perintah berikut untuk memantau pembuatan cluster. Untuk informasi selengkapnya tentang perintah ini, lihat pcluster describe-cluster dalam dokumentasi AWS. ParallelCluster
| Administrator AWS |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Akses ke portal Grafana. |
| Administrator AWS |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Hapus klaster . | Masukkan perintah berikut untuk menghapus cluster. Untuk informasi selengkapnya tentang perintah ini, lihat pcluster delete-cluster di dokumentasi AWS. ParallelCluster
| Administrator AWS |
Hapus kebijakan IAM. | Hapus kebijakan yang Anda buat untuk node kepala dan node komputasi. Untuk informasi selengkapnya tentang menghapus kebijakan, lihat Menghapus kebijakan IAM di dokumentasi IAM. | Administrator AWS |
Hapus grup dan aturan keamanan. | Hapus grup keamanan yang Anda buat untuk node kepala. Untuk informasi selengkapnya, lihat Menghapus aturan grup keamanan dan Menghapus grup keamanan di dokumentasi Amazon VPC. | Administrator AWS |
Hapus bucket S3. | Hapus bucket S3 yang Anda buat untuk menyimpan skrip konfigurasi. Untuk informasi selengkapnya, lihat Menghapus bucket di dokumentasi Amazon S3. | AWS Umum |
Pemecahan Masalah
| Isu | Solusi |
|---|---|
Node kepala tidak dapat diakses di browser. | Periksa grup keamanan dan konfirmasikan bahwa port masuk 443 terbuka. |
Grafana tidak terbuka. | Pada node kepala, periksa log kontainer untuk |
Beberapa metrik tidak memiliki data. | Pada node kepala, periksa log kontainer dari semua kontainer. |
Sumber daya terkait
Dokumentasi AWS
Sumber daya AWS lainnya
Dasbor pemantauan untuk AWS ParallelCluster
(postingan blog AWS)
Sumber daya lainnya