I/O エラーと NFS ロックの再利用の失敗のトラブルシューティング

このセクションでは、FSx for ONTAP ファイルシステムのフェイルオーバーイベント中の I/O エラーと NFS ロックの再利用の失敗に関連する問題と、それぞれの解決策について説明します。

フェイルオーバーイベント中に I/O エラーが発生している

FSx for ONTAP シングル AZ ファイルシステムのフェイルオーバー中に、NFS クライアントで一時的な I/O エラーや長時間の一時停止が発生する可能性があります。NFSv4+ クライアントの場合、次のようなカーネルログメッセージが表示されることがあります。


NFS: __nfs4_reclaim_open_state: Lock reclaim failed!

これらのメッセージは、フェイルオーバーウィンドウ中にクライアントが NFS ロックを正常に再利用できなかったことを示します。

Linux では、クライアントでネットワーク設定を行い、フェイルオーバー検出時間を 55～60 秒から 15～20 秒に短縮できます。

これらの設定は、必ず本番環境以外で最初にテストしてください。これらの設定により、IP アドレスをローカルネットワーク上の物理 (MAC) アドレスにマッピングするために使用されるアドレス解決プロトコル (ARP) トラフィックが増加し、ネットワークに制約のある環境には適さない場合があります。

設定をすぐに適用します。


$ sudo sysctl -p /etc/sysctl.d/99-fsx-failover.conf

これらの設定が、同じアベイラビリティーゾーン内の FSx for ONTAP ファイルシステムに接続するすべての NFS クライアントに一貫して適用されることを確認します。これらのネットワーク最適化を使用する場合は、次の点に注意してください。

base_reachable_time_ms=5000 – ARP キャッシュエントリの有効性を 30 秒から 5 秒に減らし、クライアントがフェイルオーバーイベント中に IP 所有権の変更をより迅速に検出できるようにします。
delay_first_probe_time=1 – 古いネットワークエントリを調べるまでの遅延を 5 秒から 1 秒に短縮します。
ucast_solicit=0 – ユニキャストネイバープローブをスキップし、ブロードキャスト ARP リクエストをすぐに発行して、アクティブなファイルサーバーの再検出を高速化します。
tcp_syn_retries=3 – TCP 接続の再試行時間を 127 秒から 15 秒に短縮します。

ネットワーク設定が完了したら、環境をモニタリングして変更を検証する必要があります。ファイルシステムのスループットキャパシティを変更することで、フェイルオーバーイベントをテストできます。詳細については、「ファイルシステムでフェイルオーバーをテストする」を参照してください。

NFS エラーのシステムログをモニタリングして、NFS 関連のカーネルログメッセージを表示します。
```
$ sudo journalctl -f | grep -i nfs
```
などのメッセージの出現が少ないことを確認しますLock reclaim failed。
アプリケーションログをモニタリングして、フェイルオーバーイベント中の I/O タイムアウト、接続エラー、再試行関連の障害が少ないことを確認します。
ネットワークへの影響を検証して、ARP トラフィックの増加が環境のネットワークパフォーマンスに悪影響を及ぼさないことを確認します。

クライアント側の設定を変更できない NFSv4 環境では、次の代替方法を検討してください。

NFSv4 リースタイムアウトを延長します。ストレージ管理者と協力して、NFSv4 リースタイムアウトを増やします。これらのタイムアウトを延長すると、クライアントはフェイルオーバーイベント中にロックを再利用するための追加の時間を確保できます。詳細については、 NetApp ONTAPドキュメントのNFSv4 ロック猶予期間を指定する」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ネットワーク問題のトラブルシューティング

ドキュメント履歴