Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memecahkan masalah I/O kesalahan dan kegagalan klaim kembali kunci NFS
Bagian ini menjelaskan masalah yang terkait dengan I/O kesalahan dan kegagalan reklamasi kunci NFS selama peristiwa failover aktif untuk sistem file ONTAP dan resolusi FSx untuk masing-masingnya.
Anda mengalami I/O kesalahan selama peristiwa failover
Selama failovers aktif FSx untuk sistem file ONTAP Single-AZ, klien NFS mungkin mengalami kesalahan sementara I/O atau jeda yang diperpanjang. Untuk klien NFSv4 +, Anda mungkin melihat pesan log kernel seperti:
NFS: __nfs4_reclaim_open_state: Lock reclaim failed!
Pesan-pesan ini menunjukkan bahwa klien tidak dapat berhasil merebut kembali kunci NFS selama jendela failover.
Untuk mengurangi I/O kesalahan selama peristiwa failover
Di Linux, Anda dapat mengonfigurasi pengaturan jaringan pada klien Anda untuk mengurangi waktu deteksi failover dari 55-60 detik menjadi 15-20 detik.
penting
Selalu uji konfigurasi ini di lingkungan non-produksi terlebih dahulu. Pengaturan ini meningkatkan lalu lintas Address Resolution Protocol (ARP), yang digunakan untuk memetakan alamat IP ke alamat fisik (MAC) di jaringan lokal, dan mungkin tidak cocok untuk lingkungan yang dibatasi jaringan.
Untuk mengkonfigurasi pengaturan jaringan yang dioptimalkan untuk klien NFS
-
Buat file konfigurasi sysctl pada setiap klien NFS. Contoh berikut digunakan
defaultuntuk menerapkan pengaturan ke semua antarmuka jaringan. Jika instans Anda memiliki beberapa antarmuka jaringan, Anda dapat menggantidefaultdengan nama antarmuka tertentu (misalnya,eth0atauens5) yang digunakan untuk menyambung ke sistem file ONTAP Single-AZ Anda FSx :$sudo tee /etc/sysctl.d/99-fsx-failover.conf > /dev/null << 'EOF' # NFS client optimizations for faster failover detection # Replace 'default' with your interface name (e.g., eth0, ens5) to target a specific interface net.ipv4.neigh.default.base_reachable_time_ms=5000 net.ipv4.neigh.default.delay_first_probe_time=1 net.ipv4.neigh.default.ucast_solicit=0 net.ipv4.tcp_syn_retries=3 EOF -
Terapkan pengaturan segera:
$sudo sysctl -p /etc/sysctl.d/99-fsx-failover.conf -
Verifikasi konfigurasi aktif. Jika Anda menggunakan
default, Anda dapat memverifikasi dengan perintah berikut. Jika Anda menentukan antarmuka tertentu, gantidefaultdengan nama antarmuka Anda (misalnya,eth0atauens5):$sysctl net.ipv4.neigh.default.base_reachable_time_ms$sysctl net.ipv4.neigh.default.delay_first_probe_time$sysctl net.ipv4.neigh.default.ucast_solicit$sysctl net.ipv4.tcp_syn_retries
Pastikan pengaturan ini diterapkan secara konsisten di semua klien NFS yang terhubung ke sistem file ONTAP Anda FSx dalam Availability Zone yang sama. Saat menggunakan pengoptimalan jaringan ini, ingatlah hal berikut:
base_reachable_time_ms=5000 - Mengurangi validitas entri cache ARP dari 30 detik menjadi 5 detik, memungkinkan klien mendeteksi perubahan kepemilikan IP lebih cepat selama peristiwa failover.
delay_first_probe_time=1 - Mengurangi penundaan sebelum memeriksa entri jaringan basi dari 5 detik menjadi 1 detik.
ucast_solicit=0 - Melewatkan probe tetangga unicast dan segera mengeluarkan permintaan ARP siaran, mempercepat penemuan kembali server file aktif.
tcp_syn_retries=3 - Mengurangi durasi coba lagi koneksi TCP dari 127 detik menjadi 15 detik.
Setelah pengaturan jaringan di tempat, Anda harus memantau lingkungan Anda untuk memvalidasi perubahan. Anda dapat menguji peristiwa failover dengan memodifikasi kapasitas throughput sistem file Anda. Untuk informasi selengkapnya, lihat Menguji failover pada sebuah sistem file.
Memantau lingkungan Anda setelah menerapkan perubahan
-
Pantau log sistem untuk kesalahan NFS untuk melihat pesan log kernel terkait NFS.
$sudo journalctl -f | grep -i nfsVerifikasi bahwa ada lebih sedikit kemunculan pesan seperti
Lock reclaim failed. Pantau log aplikasi untuk mengonfirmasi lebih sedikit I/O waktu tunggu, kesalahan koneksi, dan kegagalan terkait coba ulang selama peristiwa failover.
Validasi dampak jaringan untuk memastikan bahwa peningkatan lalu lintas ARP tidak mempengaruhi kinerja jaringan di lingkungan Anda.
Pendekatan alternatif untuk NFSv4 lingkungan
Di NFSv4 lingkungan di mana memodifikasi konfigurasi sisi klien tidak layak, pertimbangkan alternatif berikut:
Perpanjang batas waktu NFSv4 sewa. Bekerja dengan administrator penyimpanan Anda untuk meningkatkan batas waktu NFSv4 sewa. Memperpanjang batas waktu ini memberi klien waktu tambahan untuk merebut kembali kunci selama peristiwa failover. Untuk informasi selengkapnya, lihat Menentukan masa tenggang NFSv4 penguncian
dalam NetApp ONTAP dokumentasi.