As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Solução de problemas e I/O falhas de recuperação de bloqueio do NFS
Esta seção descreve problemas relacionados a I/O erros e falhas de recuperação de bloqueio NFS durante eventos de failover em sistemas de arquivos ONTAP e resoluções FSx para cada um deles.
Você está enfrentando I/O erros durante eventos de failover
Durante os failovers nos FSx sistemas de arquivos ONTAP Single-AZ, os clientes NFS podem enfrentar erros transitórios I/O ou pausas prolongadas. Para clientes NFSv4 +, você pode ver mensagens de log do kernel como:
NFS: __nfs4_reclaim_open_state: Lock reclaim failed!
Essas mensagens indicam que o cliente não conseguiu recuperar com êxito os bloqueios do NFS durante a janela de failover.
Para reduzir I/O erros durante eventos de failover
No Linux, você pode definir as configurações de rede em seus clientes para reduzir o tempo de detecção de failover de 55 a 60 segundos para 15 a 20 segundos.
Importante
Sempre teste essas configurações primeiro em um ambiente que não seja de produção. Essas configurações aumentam o tráfego do Protocolo de Resolução de Endereços (ARP), que é usado para mapear endereços IP para endereços físicos (MAC) em uma rede local e podem não ser adequados para ambientes com restrições de rede.
Para definir configurações de rede otimizadas para clientes NFS
-
Crie um arquivo de configuração sysctl em cada cliente NFS. O exemplo a seguir é usado
defaultpara aplicar configurações a todas as interfaces de rede. Se sua instância tiver várias interfaces de rede, você poderádefaultsubstituí-la pelo nome específico da interface (por exemplo,eth0ouens5) usado para se conectar ao seu sistema de arquivos FSx for ONTAP Single-AZ:$sudo tee /etc/sysctl.d/99-fsx-failover.conf > /dev/null << 'EOF' # NFS client optimizations for faster failover detection # Replace 'default' with your interface name (e.g., eth0, ens5) to target a specific interface net.ipv4.neigh.default.base_reachable_time_ms=5000 net.ipv4.neigh.default.delay_first_probe_time=1 net.ipv4.neigh.default.ucast_solicit=0 net.ipv4.tcp_syn_retries=3 EOF -
Aplique as configurações imediatamente:
$sudo sysctl -p /etc/sysctl.d/99-fsx-failover.conf -
Verifique se a configuração está ativa. Se você usou
default, você pode verificar com os seguintes comandos. Se você especificou uma interface específica,defaultsubstitua pelo nome da interface (por exemplo,eth0ouens5):$sysctl net.ipv4.neigh.default.base_reachable_time_ms$sysctl net.ipv4.neigh.default.delay_first_probe_time$sysctl net.ipv4.neigh.default.ucast_solicit$sysctl net.ipv4.tcp_syn_retries
Certifique-se de que essas configurações sejam aplicadas de forma consistente em todos os clientes NFS que se conectam ao seu sistema de arquivos FSx for ONTAP dentro da mesma zona de disponibilidade. Ao usar essas otimizações de rede, lembre-se do seguinte:
base_reachable_time_ms=5000 — Reduz a validade da entrada do cache ARP de 30 segundos para 5 segundos, permitindo que os clientes detectem alterações de propriedade de IP mais rapidamente durante um evento de failover.
delay_first_probe_time=1 — Reduz o atraso antes de sondar uma entrada de rede obsoleta de 5 segundos para 1 segundo.
ucast_solicit=0 — Ignora as sondagens de vizinhos unicast e emite imediatamente solicitações ARP de transmissão, acelerando a redescoberta do servidor de arquivos ativo.
tcp_syn_retries=3 — Reduz a duração da repetição da conexão TCP de 127 segundos para 15 segundos.
Depois que as configurações de rede estiverem definidas, você deverá monitorar seu ambiente para validar as alterações. Você pode testar um evento de failover modificando a capacidade de transferência do seu sistema de arquivos. Para obter mais informações, consulte Como testar o failover em um sistema de arquivos.
Monitorando seu ambiente após aplicar as alterações
-
Monitore os registros do sistema em busca de erros de NFS para visualizar mensagens de log do kernel relacionadas ao NFS.
$sudo journalctl -f | grep -i nfsVerifique se há menos ocorrências de mensagens como
Lock reclaim failed. Monitore os registros do aplicativo para confirmar menos I/O tempos limite, erros de conexão e falhas relacionadas a novas tentativas durante eventos de failover.
Valide o impacto da rede para garantir que o aumento do tráfego ARP não afete adversamente o desempenho da rede em seu ambiente.
Abordagens alternativas para NFSv4 ambientes
Em NFSv4 ambientes em que a modificação da configuração do lado do cliente não é viável, considere as seguintes alternativas:
Estenda os prazos NFSv4 de locação. Trabalhe com seu administrador de armazenamento para aumentar os tempos limite de NFSv4 locação. Estender esses tempos limite dá aos clientes mais tempo para recuperar bloqueios durante eventos de failover. Para obter mais informações, consulte Especificar o período de carência de NFSv4 bloqueio
na NetApp ONTAP documentação.