Jelajahi lingkungan cluster di AWS PCS - AWS PCS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jelajahi lingkungan cluster di AWS PCS

Setelah Anda masuk ke cluster, Anda dapat menjalankan perintah shell. Misalnya, Anda dapat mengubah pengguna, bekerja dengan data pada sistem file bersama, dan berinteraksi dengan Slurm.

Ubah pengguna

Jika Anda telah masuk ke cluster menggunakan Session Manager, Anda mungkin terhubung sebagaissm-user. Ini adalah pengguna khusus yang dibuat untuk Session Manager. Beralih ke pengguna default di Amazon Linux 2 menggunakan perintah berikut. Anda tidak perlu melakukan ini jika Anda terhubung menggunakan SSH.

sudo su - ec2-user

Bekerja dengan sistem file bersama

Anda dapat mengonfirmasi bahwa sistem file EFS dan FSx untuk sistem file Lustre tersedia dengan perintah. df -h Output pada cluster Anda harus menyerupai berikut ini:

[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000

Sistem /home file dipasang 127.0.0.1 dan memiliki kapasitas yang sangat besar. Ini adalah sistem file EFS yang Anda buat sebelumnya dalam tutorial. Setiap file yang ditulis di sini akan tersedia di bawah /home pada semua node di cluster.

Sistem /shared file memasang IP pribadi dan memiliki kapasitas 1,2 TB. Ini adalah sistem file FSx untuk Lustre yang Anda buat sebelumnya dalam tutorial. Setiap file yang ditulis di sini akan tersedia di bawah /shared pada semua node di cluster.

Berinteraksi dengan Slurm

Daftar antrian dan node

Anda dapat membuat daftar antrian dan node yang terkait dengannya. sinfo Output dari cluster Anda harus menyerupai berikut ini:

[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$

Perhatikan partisi bernamademo. Statusnya adalah up dan memiliki maksimal 4 node. Hal ini terkait dengan node dalam kelompok compute-1 node. Jika Anda mengedit grup node komputasi dan meningkatkan jumlah maksimum instance menjadi 8, jumlah node akan dibaca 8 dan daftar node akan terbaca. compute-1-[1-8] Jika Anda membuat grup node komputasi kedua bernama test dengan 4 node, dan menambahkannya ke demo antrian, node tersebut akan muncul dalam daftar node juga.

Tampilkan lowongan kerja

Anda dapat membuat daftar semua pekerjaan, di negara bagian mana pun, pada sistem dengansqueue. Output dari cluster Anda harus menyerupai berikut ini:

[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

Coba jalankan squeue lagi nanti, ketika Anda memiliki pekerjaan Slurm yang tertunda atau berjalan.