Menyelesaikan perubahan konfigurasi OS yang menyebabkan kesalahan atau kegagalan - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyelesaikan perubahan konfigurasi OS yang menyebabkan kesalahan atau kegagalan

Saat membuat perubahan konfigurasi OS ke AWS ParallelCluster node, berbagai masalah dapat muncul yang dapat menyebabkan kegagalan pembuatan, pembaruan, atau operasi cluster. Bagian ini memberikan panduan untuk mengidentifikasi dan menyelesaikan masalah umum terkait konfigurasi OS.

Masalah konfigurasi OS umum

Masalah konfigurasi lokal

Salah satu masalah konfigurasi OS yang paling umum terkait dengan pengaturan lokal. Jika Anda melihat kesalahan seperti:

cannot change locale (en_US.utf-8) because it has an invalid name

Ini biasanya terjadi ketika:

  • Proses yum instalasi tidak berhasil dan meninggalkan pengaturan lokal dalam keadaan tidak konsisten

  • Pengguna menghentikan proses instalasi sebelum waktunya

  • Paket lokal hilang atau rusak

Cara mendiagnosa

  1. Periksa apakah Anda dapat beralih ke pengguna pcluster-admin:

    $ su - pcluster-admin

    Jika Anda melihat kesalahan seperticannot change locale...no such file or directory, ini mengonfirmasi masalah.

  2. Periksa lokal yang tersedia:

    $ localedef --list

    Jika ini mengembalikan daftar kosong atau tidak berisi lokal default, konfigurasi lokal Anda rusak.

  3. Periksa yum perintah terakhir:

    $ yum history $ yum history info #ID

    Jika ID terakhir tidak memilikiReturn-Code: Success, skrip pasca-instal mungkin tidak berhasil berjalan.

Bagaimana cara mengatasinya

Membangun kembali lokal dengan menginstal ulang paket bahasa:

$ sudo yum reinstall glibc-all-langpacks

Setelah pembangunan kembali, verifikasi bahwa masalah telah diperbaiki dengan menjalankan:

$ su - pcluster-admin

Jika tidak ada kesalahan atau peringatan yang muncul, masalah telah diselesaikan.

Konflik paket OS

Saat menginstal paket khusus atau memodifikasi paket sistem, konflik dapat muncul yang mencegah operasi cluster yang tepat.

Cara mendiagnosa

  1. Periksa log chef-client untuk kesalahan terkait paket:

    $ less /var/log/chef-client.log
  2. Cari konflik ketergantungan paket di log cfn-init:

    $ less /var/log/cfn-init.log

Bagaimana cara mengatasinya

  1. Jika paket tertentu menyebabkan masalah, coba instal ulang:

    $ sudo yum reinstall package-name
  2. Untuk konflik ketergantungan, Anda mungkin perlu menghapus paket yang bertentangan:

    $ sudo yum remove conflicting-package
  3. Jika masalah berlanjut, pertimbangkan untuk membuat AMI khusus dengan paket yang diperlukan yang sudah diinstal sebelumnya menggunakan perintah. pcluster build-image Untuk informasi selengkapnya, lihat AWS ParallelCluster Kustomisasi AMI.

Modifikasi file konfigurasi sistem

Memodifikasi file konfigurasi sistem kritis dapat menyebabkan kegagalan cluster, terutama jika file-file ini dikelola oleh AWS ParallelCluster.

Cara mendiagnosa

  1. Periksa kesalahan dalam log chef-client yang menyebutkan file konfigurasi tertentu:

    $ grep -i "config" /var/log/chef-client.log
  2. Cari kesalahan izin atau sintaks dalam file konfigurasi:

    $ less /var/log/cfn-init.log

Bagaimana cara mengatasinya

  1. Kembalikan file konfigurasi yang dimodifikasi ke keadaan semula:

    $ sudo cp /etc/file.conf.bak /etc/file.conf
  2. Jika Anda perlu membuat perubahan terus-menerus pada file konfigurasi sistem, gunakan tindakan bootstrap khusus alih-alih memodifikasi file secara langsung:

    HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh

    Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.

  3. Untuk perubahan konfigurasi yang harus dilakukan langsung ke file sistem, pertimbangkan untuk membuat AMI kustom. Untuk informasi selengkapnya, lihat AWS ParallelCluster Kustomisasi AMI.

Pembaruan kernel dan masalah kompatibilitas

Pembaruan kernel dapat menyebabkan masalah kompatibilitas dengan AWS layanan tertentu, terutama dengan Amazon FSx untuk Lustre.

Cara mendiagnosa

  1. Periksa apakah pembaruan kernel telah diterapkan:

    $ uname -r
  2. Cari kegagalan FSx pemasangan Amazon di log:

    $ grep -i "fsx" /var/log/chef-client.log

Bagaimana cara mengatasinya

  1. Untuk Ubuntu 22.04, hindari memperbarui ke kernel terbaru karena tidak ada FSx klien Amazon untuk kernel itu. Untuk informasi selengkapnya, lihat Pertimbangan sistem operasi.

  2. Jika Anda telah memperbarui kernel dan mengalami masalah, pertimbangkan untuk menurunkan versi ke versi kernel yang kompatibel:

    $ sudo apt install linux-image-previous-version
  3. Untuk kustomisasi kernel persisten, buat AMI khusus dengan versi kernel tertentu yang Anda butuhkan. Untuk informasi selengkapnya, lihat AWS ParallelCluster Kustomisasi AMI.

Praktik terbaik untuk perubahan konfigurasi OS

Untuk meminimalkan masalah saat membuat perubahan konfigurasi OS:

  1. Gunakan Tindakan Bootstrap Kustom: Alih-alih langsung memodifikasi file sistem, gunakan OnNodeStart atau OnNodeConfigured skrip untuk membuat perubahan secara terkontrol. Untuk informasi selengkapnya, lihat Tindakan bootstrap kustom.

  2. Buat Kustom AMIs: Untuk modifikasi OS yang signifikan, buat AMI kustom menggunakan pcluster build-image alih-alih membuat perubahan pada instance yang sedang berjalan. Untuk informasi selengkapnya, lihat AWS ParallelCluster Kustomisasi AMI.

  3. Uji Perubahan Pertama: Sebelum menerapkan perubahan pada kluster produksi, ujilah perubahan tersebut pada klaster uji kecil untuk memastikan kompatibilitas.

  4. Perubahan Dokumen: Melacak semua perubahan konfigurasi OS yang dibuat untuk memfasilitasi pemecahan masalah.

  5. File Konfigurasi Cadangan: Sebelum memodifikasi file konfigurasi sistem apa pun, buat cadangan:

    $ sudo cp /etc/file.conf /etc/file.conf.bak
  6. Periksa Log Setelah Perubahan: Setelah membuat perubahan konfigurasi OS, periksa log untuk kesalahan apa pun:

    $ less /var/log/cfn-init.log $ less /var/log/chef-client.log

Dengan mengikuti panduan ini, Anda dapat meminimalkan risiko perubahan konfigurasi OS yang menyebabkan kegagalan klaster dan lebih efektif memecahkan masalah apa pun yang muncul.