Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Solución de I/O errores y errores de recuperación de bloqueos de NFS
En esta sección se describen los problemas relacionados con I/O los errores y los errores de recuperación del bloqueo de NFS durante los eventos de conmutación por error en los sistemas de archivos ONTAP, FSx así como las resoluciones de cada uno de ellos.
Se producen errores durante los eventos de conmutación por error I/O
Durante las conmutaciones FSx por error activadas en los sistemas de archivos Single-AZ de ONTAP, los clientes NFS pueden experimentar errores transitorios o pausas prolongadas. I/O En el caso de los clientes NFSv4 +, es posible que veas mensajes de registro del núcleo, como los siguientes:
NFS: __nfs4_reclaim_open_state: Lock reclaim failed!
Estos mensajes indican que el cliente no pudo recuperar correctamente los bloqueos de NFS durante la ventana de conmutación por error.
Para reducir los errores durante los eventos de conmutación por I/O error
En Linux, puede configurar los ajustes de red de sus clientes para reducir el tiempo de detección de la conmutación por error de 55 a 60 segundos a 15 a 20 segundos.
importante
Pruebe siempre estas configuraciones primero en un entorno que no sea de producción. Esta configuración aumenta el tráfico del Protocolo de resolución de direcciones (ARP), que se utiliza para asignar direcciones IP a direcciones físicas (MAC) en una red local, y puede que no sea adecuada para entornos con restricciones de red.
Para configurar los ajustes de red optimizados para los clientes NFS
-
Cree un archivo de configuración sysctl en cada cliente NFS. El siguiente ejemplo se utiliza
defaultpara aplicar la configuración a todas las interfaces de red. Si la instancia tiene varias interfaces de red, puededefaultsustituirlas por el nombre específico de la interfaz (por ejemplo,eth0oens5) que se utiliza FSx para conectarse al sistema de archivos Single-AZ de ONTAP:$sudo tee /etc/sysctl.d/99-fsx-failover.conf > /dev/null << 'EOF' # NFS client optimizations for faster failover detection # Replace 'default' with your interface name (e.g., eth0, ens5) to target a specific interface net.ipv4.neigh.default.base_reachable_time_ms=5000 net.ipv4.neigh.default.delay_first_probe_time=1 net.ipv4.neigh.default.ucast_solicit=0 net.ipv4.tcp_syn_retries=3 EOF -
Aplica la configuración inmediatamente:
$sudo sysctl -p /etc/sysctl.d/99-fsx-failover.conf -
Compruebe que la configuración esté activa. Si lo utilizó
default, puede verificarlo con los siguientes comandos. Si especificó una interfaz específica,defaultsustitúyala por el nombre de la interfaz (por ejemplo,eth0oens5):$sysctl net.ipv4.neigh.default.base_reachable_time_ms$sysctl net.ipv4.neigh.default.delay_first_probe_time$sysctl net.ipv4.neigh.default.ucast_solicit$sysctl net.ipv4.tcp_syn_retries
Asegúrese de que esta configuración se aplique de forma coherente en todos los clientes NFS que se conecten a su sistema de archivos FSx de ONTAP dentro de la misma zona de disponibilidad. Al utilizar estas optimizaciones de red, tenga en cuenta lo siguiente:
base_reachable_time_ms=5000: reduce la validez de las entradas en la caché ARP de 30 a 5 segundos, lo que permite a los clientes detectar los cambios en la propiedad de la IP con mayor rapidez durante una conmutación por error.
delay _first_probe_time=1: reduce la demora antes de sondear una entrada de red obsoleta de 5 a 1 segundo.
ucast_solicit=0: omite las sondas vecinas de unidifusión y emite inmediatamente las solicitudes ARP de emisión, lo que acelera el redescubrimiento del servidor de archivos activo.
tcp_syn_retries=3: reduce la duración de los reintentos de conexión TCP de 127 a 15 segundos.
Una vez establecida la configuración de la red, debe supervisar el entorno para validar los cambios. Puede probar un evento de conmutación por error modificando la capacidad de rendimiento del sistema de archivos. Para obtener más información, consulte Probar la conmutación por error en un sistema de archivos.
Supervisar el entorno después de aplicar los cambios
-
Supervise los registros del sistema en busca de errores de NFS para ver los mensajes de registro del núcleo relacionados con NFS.
$sudo journalctl -f | grep -i nfsCompruebe que hay menos apariciones de mensajes como.
Lock reclaim failed Supervise los registros de las aplicaciones para confirmar que se reducen I/O los tiempos de espera, los errores de conexión y los errores relacionados con los intentos durante los eventos de conmutación por error.
Valide el impacto en la red para garantizar que el aumento del tráfico ARP no afecte negativamente al rendimiento de la red en su entorno.
Enfoques alternativos para los entornos NFSv4
En NFSv4 los entornos en los que no sea posible modificar la configuración del lado del cliente, considere las siguientes alternativas:
Amplíe los tiempos de espera NFSv4 de arrendamiento. Trabaje con su administrador de almacenamiento de información para aumentar los tiempos de espera de los NFSv4 arrendamientos. Al extender estos tiempos de espera, los clientes disponen de más tiempo para recuperar los bloqueos durante los eventos de conmutación por error. Para obtener más información, consulte Especificar el período de gracia del NFSv4 bloqueo
en la documentación. NetApp ONTAP