Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menyelesaikan perubahan konfigurasi OS yang menyebabkan kesalahan atau kegagalan
Saat membuat perubahan konfigurasi OS ke AWS ParallelCluster node, berbagai masalah dapat muncul yang dapat menyebabkan kegagalan pembuatan, pembaruan, atau operasi cluster. Bagian ini memberikan panduan untuk mengidentifikasi dan menyelesaikan masalah umum terkait konfigurasi OS.
Masalah konfigurasi OS umum
Masalah konfigurasi lokal
Salah satu masalah konfigurasi OS yang paling umum terkait dengan pengaturan lokal. Jika Anda melihat kesalahan seperti:
cannot change locale (en_US.utf-8) because it has an invalid name
Ini biasanya terjadi ketika:
-
Proses
yum
instalasi tidak berhasil dan meninggalkan pengaturan lokal dalam keadaan tidak konsisten -
Pengguna menghentikan proses instalasi sebelum waktunya
-
Paket lokal hilang atau rusak
Cara mendiagnosa
-
Periksa apakah Anda dapat beralih ke pengguna pcluster-admin:
$
su - pcluster-admin
Jika Anda melihat kesalahan seperti
cannot change locale...no such file or directory
, ini mengonfirmasi masalah. -
Periksa lokal yang tersedia:
$
localedef --list
Jika ini mengembalikan daftar kosong atau tidak berisi lokal default, konfigurasi lokal Anda rusak.
-
Periksa
yum
perintah terakhir:$
yum history
$
yum history info #ID
Jika ID terakhir tidak memiliki
Return-Code: Success
, skrip pasca-instal mungkin tidak berhasil berjalan.
Bagaimana cara mengatasinya
Membangun kembali lokal dengan menginstal ulang paket bahasa:
$
sudo yum reinstall glibc-all-langpacks
Setelah pembangunan kembali, verifikasi bahwa masalah telah diperbaiki dengan menjalankan:
$
su - pcluster-admin
Jika tidak ada kesalahan atau peringatan yang muncul, masalah telah diselesaikan.
Konflik paket OS
Saat menginstal paket khusus atau memodifikasi paket sistem, konflik dapat muncul yang mencegah operasi cluster yang tepat.
Cara mendiagnosa
-
Periksa log chef-client untuk kesalahan terkait paket:
$
less /var/log/chef-client.log
-
Cari konflik ketergantungan paket di log cfn-init:
$
less /var/log/cfn-init.log
Bagaimana cara mengatasinya
-
Jika paket tertentu menyebabkan masalah, coba instal ulang:
$
sudo yum reinstall package-name
-
Untuk konflik ketergantungan, Anda mungkin perlu menghapus paket yang bertentangan:
$
sudo yum remove conflicting-package
-
Jika masalah berlanjut, pertimbangkan untuk membuat AMI khusus dengan paket yang diperlukan yang sudah diinstal sebelumnya menggunakan perintah.
pcluster build-image
Untuk informasi selengkapnya, lihat AWS ParallelCluster Kustomisasi AMI.
Modifikasi file konfigurasi sistem
Memodifikasi file konfigurasi sistem kritis dapat menyebabkan kegagalan cluster, terutama jika file-file ini dikelola oleh AWS ParallelCluster.
Cara mendiagnosa
-
Periksa kesalahan dalam log chef-client yang menyebutkan file konfigurasi tertentu:
$
grep -i "config" /var/log/chef-client.log
-
Cari kesalahan izin atau sintaks dalam file konfigurasi:
$
less /var/log/cfn-init.log
Bagaimana cara mengatasinya
-
Kembalikan file konfigurasi yang dimodifikasi ke keadaan semula:
$
sudo cp /etc/file.conf.bak /etc/file.conf
-
Jika Anda perlu membuat perubahan terus-menerus pada file konfigurasi sistem, gunakan tindakan bootstrap khusus alih-alih memodifikasi file secara langsung:
HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh
Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.
-
Untuk perubahan konfigurasi yang harus dilakukan langsung ke file sistem, pertimbangkan untuk membuat AMI kustom. Untuk informasi selengkapnya, lihat AWS ParallelCluster Kustomisasi AMI.
Pembaruan kernel dan masalah kompatibilitas
Pembaruan kernel dapat menyebabkan masalah kompatibilitas dengan AWS layanan tertentu, terutama dengan Amazon FSx untuk Lustre.
Cara mendiagnosa
-
Periksa apakah pembaruan kernel telah diterapkan:
$
uname -r
-
Cari kegagalan FSx pemasangan Amazon di log:
$
grep -i "fsx" /var/log/chef-client.log
Bagaimana cara mengatasinya
-
Untuk Ubuntu 22.04, hindari memperbarui ke kernel terbaru karena tidak ada FSx klien Amazon untuk kernel itu. Untuk informasi selengkapnya, lihat Pertimbangan sistem operasi.
-
Jika Anda telah memperbarui kernel dan mengalami masalah, pertimbangkan untuk menurunkan versi ke versi kernel yang kompatibel:
$
sudo apt install linux-image-previous-version
-
Untuk kustomisasi kernel persisten, buat AMI khusus dengan versi kernel tertentu yang Anda butuhkan. Untuk informasi selengkapnya, lihat AWS ParallelCluster Kustomisasi AMI.
Praktik terbaik untuk perubahan konfigurasi OS
Untuk meminimalkan masalah saat membuat perubahan konfigurasi OS:
-
Gunakan Tindakan Bootstrap Kustom: Alih-alih langsung memodifikasi file sistem, gunakan
OnNodeStart
atauOnNodeConfigured
skrip untuk membuat perubahan secara terkontrol. Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom. -
Buat Kustom AMIs: Untuk modifikasi OS yang signifikan, buat AMI kustom menggunakan
pcluster build-image
alih-alih membuat perubahan pada instance yang sedang berjalan. Untuk informasi selengkapnya, lihat AWS ParallelCluster Kustomisasi AMI. -
Uji Perubahan Pertama: Sebelum menerapkan perubahan pada kluster produksi, ujilah perubahan tersebut pada klaster uji kecil untuk memastikan kompatibilitas.
-
Perubahan Dokumen: Melacak semua perubahan konfigurasi OS yang dibuat untuk memfasilitasi pemecahan masalah.
-
File Konfigurasi Cadangan: Sebelum memodifikasi file konfigurasi sistem apa pun, buat cadangan:
$
sudo cp /etc/file.conf /etc/file.conf.bak
-
Periksa Log Setelah Perubahan: Setelah membuat perubahan konfigurasi OS, periksa log untuk kesalahan apa pun:
$
less /var/log/cfn-init.log
$
less /var/log/chef-client.log
Dengan mengikuti panduan ini, Anda dapat meminimalkan risiko perubahan konfigurasi OS yang menyebabkan kegagalan klaster dan lebih efektif memecahkan masalah apa pun yang muncul.