As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Resiliência no MES
<a name="resiliency"></a>

Resiliência é a capacidade de um sistema MES de se recuperar de interrupções na infraestrutura ou no serviço, adquirir dinamicamente recursos de computação para atender à demanda e mitigar interrupções, como configurações incorretas ou problemas transitórios de rede. A resiliência é o principal fator do qual depende o pilar de confiabilidade do [AWS Well-Architected](https://aws.amazon.com/architecture/well-architected/) Framework.

A resiliência pode ser dividida em dois fatores principais: disponibilidade e recuperação de desastres. Ambas as áreas contam com algumas das mesmas melhores práticas, como monitoramento de falhas, implantação em vários locais e failover automático. No entanto, a disponibilidade se concentra nos componentes dos microsserviços MES, enquanto a recuperação de desastres se concentra em cópias discretas de todo o microsserviço ou até mesmo de todo o sistema MES.

## Disponibilidade
<a name="availability"></a>

Definimos *disponibilidade* como a porcentagem de tempo em que um microsserviço está disponível para uso, conforme representado na fórmula a seguir. Essa porcentagem é calculada em um período de tempo, como um mês, um ano ou nos últimos três anos.

![Fórmula de disponibilidade para arquiteturas MES](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/mes-on-aws/images/formula.png)


Essa fórmula requer uma compreensão de três métricas que são comuns na fabricação e na manutenção de equipamentos:
+ **Tempo médio entre falhas (MTBF)**: o tempo médio entre o início das operações regulares de um microsserviço e sua falha subsequente.
+ **Tempo médio de detecção (MTTD)**: O tempo médio entre a ocorrência de uma falha e o início das operações de reparo.
+ **Tempo médio de reparo (MTTR)**: o tempo médio entre a indisponibilidade de um microsserviço devido à falha de um subsistema e seu reparo ou retorno ao serviço. O MTTD é um subconjunto do MTTR.

O diagrama a seguir ilustra essas métricas de disponibilidade.

![Métricas de disponibilidade para arquiteturas MES](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/mes-on-aws/images/availability.png)


Um MES resiliente e altamente disponível visa reduzir o MTTR e o MTTD e aumentar o MTBF. Embora um design ideal elimine falhas, ele não é realista. As falhas monolíticas tradicionais do MES eram difíceis de detectar e demoravam mais para serem reparadas. O MES moderno e nativo da nuvem permite detecção mais rápida, reparos rápidos e continuidade dos negócios por meio de implantações Multi-AZ. Para obter as melhores práticas para sistemas modernos de alta disponibilidade com AWS serviços relevantes, consulte o white paper [Disponibilidade e além: entendendo e melhorando a resiliência de sistemas distribuídos em AWS](https://docs.aws.amazon.com/whitepapers/latest/availability-and-beyond-improving-resilience/availability-and-beyond-improving-resilience.html).

## Recuperação de desastres
<a name="disaster-recovery"></a>

A recuperação de desastres se refere ao processo de preparação e recuperação de um desastre relacionado à tecnologia, como uma grande falha de hardware ou software. Um evento que impeça um microsserviço, ou MES, de cumprir seus objetivos de negócios em seu local de implantação principal é considerado um desastre. A recuperação de desastres é diferente da disponibilidade e é medida por essas duas métricas:
+ **Objetivo de tempo de recuperação (RTO)**: o atraso aceitável entre a interrupção do microsserviço e a restauração do microsserviço. O RTO determina o que é considerado uma janela de tempo aceitável quando o serviço não está disponível.
+ **Objetivo do ponto de recuperação (RPO)**: o tempo máximo aceitável desde o último ponto de recuperação de dados. O RPO determina o que é considerado uma perda de dados aceitável entre o último ponto de recuperação e a interrupção dos microsserviços.

O diagrama a seguir ilustra essas métricas de recuperação de desastres.

![Métricas de recuperação de desastres para arquiteturas MES](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/mes-on-aws/images/rpo-rto.png)


O diagrama a seguir mostra diferentes estratégias de recuperação de desastres.

![Estratégias de recuperação de desastres para arquiteturas MES](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/mes-on-aws/images/dr-strategies.png)


Você pode encontrar orientações detalhadas sobre a implementação dessas estratégias no guia do AWS Well-Architected Framework[, Disaster Recovery of Workloads AWS on:](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-workloads-on-aws.html) Recovery in the Cloud.