I/O errores durante las conmutaciones por error Alternativas a NFSv4

Solución de I/O errores y errores de recuperación de bloqueos de NFS

En esta sección se describen los problemas relacionados con I/O los errores y los errores de recuperación de bloqueos de NFS durante los eventos de conmutación por error en los sistemas de archivos FSx para ONTAP y las resoluciones de cada uno de ellos.

Se producen errores durante los eventos de conmutación por error I/O

Durante las conmutaciones por error en los sistemas de archivos FSx para Single-AZ ONTAP, los clientes NFS pueden experimentar errores I/O transitorios o pausas prolongadas. En el caso de los clientes NFSv4+, es posible que veas mensajes de registro del núcleo como los siguientes:


NFS: __nfs4_reclaim_open_state: Lock reclaim failed!

Estos mensajes indican que el cliente no pudo recuperar correctamente los bloqueos de NFS durante el período de conmutación por error.

Para reducir los errores durante los eventos de conmutación por I/O error

En Linux, puede configurar los ajustes de red de sus clientes para reducir el tiempo de detección de la conmutación por error de 55 a 60 segundos a 15 a 20 segundos.

importante

Pruebe siempre estas configuraciones primero en un entorno que no sea de producción. Esta configuración aumenta el tráfico del Protocolo de resolución de direcciones (ARP), que se utiliza para asignar direcciones IP a direcciones físicas (MAC) en una red local, y puede que no sea adecuada para entornos con restricciones de red.

Para configurar los ajustes de red optimizados para los clientes NFS

Cree un archivo de configuración sysctl en cada cliente NFS. El siguiente ejemplo se utiliza default para aplicar la configuración a todas las interfaces de red. Si la instancia tiene varias interfaces de red, puede default sustituirlas por el nombre de interfaz específico (por ejemplo, eth0 oens5) utilizado para conectarse a su sistema de archivos FSx for ONTAP Single-AZ :


$ sudo tee /etc/sysctl.d/99-fsx-failover.conf > /dev/null << 'EOF'
# NFS client optimizations for faster failover detection
# Replace 'default' with your interface name (e.g., eth0, ens5) to target a specific interface
net.ipv4.neigh.default.base_reachable_time_ms=5000
net.ipv4.neigh.default.delay_first_probe_time=1
net.ipv4.neigh.default.ucast_solicit=0
net.ipv4.tcp_syn_retries=3
EOF

Aplica la configuración inmediatamente:


$ sudo sysctl -p /etc/sysctl.d/99-fsx-failover.conf

Compruebe que la configuración esté activa. Si lo utilizódefault, puede verificarlo con los siguientes comandos. Si especificó una interfaz específica, default sustitúyala por el nombre de la interfaz (por ejemplo, eth0 oens5):
```
$ sysctl net.ipv4.neigh.default.base_reachable_time_ms
$ sysctl net.ipv4.neigh.default.delay_first_probe_time
$ sysctl net.ipv4.neigh.default.ucast_solicit
$ sysctl net.ipv4.tcp_syn_retries
```

Asegúrese de que esta configuración se aplique de forma coherente en todos los clientes NFS que se conecten a su sistema de archivos FSx for ONTAP dentro de la misma zona de disponibilidad. Al utilizar estas optimizaciones de red, tenga en cuenta lo siguiente:

base_reachable_time_ms=5000: reduce la validez de las entradas en la caché ARP de 30 a 5 segundos, lo que permite a los clientes detectar los cambios en la propiedad de la IP con mayor rapidez durante una conmutación por error.
delay _first_probe_time=1: reduce la demora antes de sondear una entrada de red obsoleta de 5 a 1 segundo.
ucast_solicit=0: omite las sondas vecinas de unidifusión y emite inmediatamente las solicitudes ARP de emisión, lo que acelera el redescubrimiento del servidor de archivos activo.
tcp_syn_retries=3: reduce la duración de los reintentos de conexión TCP de 127 a 15 segundos.

Una vez establecida la configuración de la red, debe supervisar el entorno para validar los cambios. Puede probar un evento de conmutación por error modificando la capacidad de rendimiento del sistema de archivos. Para obtener más información, consulte Probar la conmutación por error en un sistema de archivos.

Supervisar el entorno después de aplicar los cambios

Supervise los registros del sistema en busca de errores de NFS para ver los mensajes de registro NFS-related del núcleo.
```
$ sudo journalctl -f | grep -i nfs
```
Compruebe que hay menos apariciones de mensajes comoLock reclaim failed.
Supervise los registros de las aplicaciones para confirmar que se reducen I/O los tiempos de espera, los errores de conexión y los errores relacionados con los intentos durante los eventos de conmutación por error.
Valide el impacto en la red para garantizar que el aumento del tráfico ARP no afecte negativamente al rendimiento de la red en su entorno.

Enfoques alternativos para entornos NFSv4

En los entornos NFSv4 en los que no es posible modificar la configuración del lado del cliente, considere las siguientes alternativas:

Amplíe los tiempos de espera de arrendamiento de NFSv4. Trabaje con su administrador de almacenamiento de información para aumentar los tiempos de espera de arrendamiento de NFSv4. Al extender estos tiempos de espera, los clientes disponen de más tiempo para recuperar los bloqueos durante los eventos de conmutación por error. Para obtener más información, consulte Especificar el período de gracia del bloqueo de NFSv4 en la documentación. NetApp ONTAP

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Solución de problemas de red

Historial de revisión