I/O erros durante failovers Alternativas ao NFSv4

Solução de problemas e I/O falhas de recuperação de bloqueio do NFS

Esta seção descreve problemas relacionados a I/O erros e falhas de recuperação de bloqueio do NFS durante eventos de failover nos sistemas de arquivos FSx for ONTAP e as resoluções para cada um deles.

Você está enfrentando I/O erros durante eventos de failover

Durante os failovers nos sistemas de Single-AZ arquivos FSx for ONTAP, os clientes NFS podem enfrentar erros transitórios ou pausas prolongadas. I/O Para clientes NFSv4+, você pode ver mensagens de log do kernel como:


NFS: __nfs4_reclaim_open_state: Lock reclaim failed!

Essas mensagens indicam que o cliente não conseguiu recuperar com êxito os bloqueios do NFS durante a janela de failover.

Para reduzir I/O erros durante eventos de failover

No Linux, você pode definir as configurações de rede em seus clientes para reduzir o tempo de detecção de failover de 55 a 60 segundos para 15 a 20 segundos.

Importante

Sempre teste essas configurações primeiro em um ambiente que não seja de produção. Essas configurações aumentam o tráfego do Protocolo de Resolução de Endereços (ARP), que é usado para mapear endereços IP para endereços físicos (MAC) em uma rede local e podem não ser adequados para ambientes com restrições de rede.

Para definir configurações de rede otimizadas para clientes NFS

Crie um arquivo de configuração sysctl em cada cliente NFS. O exemplo a seguir é usado default para aplicar configurações a todas as interfaces de rede. Se sua instância tiver várias interfaces de rede, você poderá default substituí-la pelo nome específico da interface (por exemplo, eth0 ouens5) usado para se conectar ao seu sistema de arquivos FSx for ONTAP Single-AZ :


$ sudo tee /etc/sysctl.d/99-fsx-failover.conf > /dev/null << 'EOF'
# NFS client optimizations for faster failover detection
# Replace 'default' with your interface name (e.g., eth0, ens5) to target a specific interface
net.ipv4.neigh.default.base_reachable_time_ms=5000
net.ipv4.neigh.default.delay_first_probe_time=1
net.ipv4.neigh.default.ucast_solicit=0
net.ipv4.tcp_syn_retries=3
EOF

Aplique as configurações imediatamente:


$ sudo sysctl -p /etc/sysctl.d/99-fsx-failover.conf

Verifique se a configuração está ativa. Se você usoudefault, você pode verificar com os seguintes comandos. Se você especificou uma interface específica, default substitua pelo nome da interface (por exemplo, eth0 ouens5):
```
$ sysctl net.ipv4.neigh.default.base_reachable_time_ms
$ sysctl net.ipv4.neigh.default.delay_first_probe_time
$ sysctl net.ipv4.neigh.default.ucast_solicit
$ sysctl net.ipv4.tcp_syn_retries
```

Certifique-se de que essas configurações sejam aplicadas de forma consistente em todos os clientes NFS que se conectam ao seu sistema de arquivos FSx for ONTAP dentro da mesma zona de disponibilidade. Ao usar essas otimizações de rede, lembre-se do seguinte:

base_reachable_time_ms=5000 — Reduz a validade da entrada do cache ARP de 30 segundos para 5 segundos, permitindo que os clientes detectem alterações de propriedade de IP mais rapidamente durante um evento de failover.
delay_first_probe_time=1 — Reduz o atraso antes de sondar uma entrada de rede obsoleta de 5 segundos para 1 segundo.
ucast_solicit=0 — Ignora as sondagens de vizinhos unicast e emite imediatamente solicitações ARP de transmissão, acelerando a redescoberta do servidor de arquivos ativo.
tcp_syn_retries=3 — Reduz a duração da repetição da conexão TCP de 127 segundos para 15 segundos.

Depois que as configurações de rede estiverem definidas, você deverá monitorar seu ambiente para validar as alterações. Você pode testar um evento de failover modificando a capacidade de taxa de transferência do seu sistema de arquivos. Para obter mais informações, consulte Como testar o failover em um sistema de arquivos.

Monitorando seu ambiente após aplicar as alterações

Monitore os registros do sistema em busca de erros de NFS para visualizar as mensagens de log NFS-related do kernel.
```
$ sudo journalctl -f | grep -i nfs
```
Verifique se há menos ocorrências de mensagens, comoLock reclaim failed.
Monitore os registros do aplicativo para confirmar menos I/O tempos limite, erros de conexão e falhas relacionadas a novas tentativas durante eventos de failover.
Valide o impacto da rede para garantir que o aumento do tráfego ARP não afete adversamente o desempenho da rede em seu ambiente.

Abordagens alternativas para ambientes NFSv4

Em ambientes NFSv4 em que a modificação da configuração do lado do cliente não é viável, considere as seguintes alternativas:

Estenda os tempos limite de leasing do NFSv4. Trabalhe com seu administrador de armazenamento para aumentar os tempos limite de leasing do NFSv4. Estender esses tempos limite dá aos clientes mais tempo para recuperar bloqueios durante eventos de failover. Para obter mais informações, consulte Especificar o período de carência de bloqueio do NFSv4 na documentação. NetApp ONTAP

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Corrigir problemas de rede

Histórico do documento