Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Resilienza nel MES
<a name="resiliency"></a>

La resilienza è la capacità di un sistema MES di riprendersi da interruzioni dell'infrastruttura o del servizio, acquisire dinamicamente risorse di elaborazione per soddisfare la domanda e mitigare interruzioni come configurazioni errate o problemi transitori di rete. La resilienza è il fattore principale da cui dipende il pilastro dell'affidabilità del [AWS Well-Architected](https://aws.amazon.com/architecture/well-architected/) Framework.

La resilienza può essere suddivisa in due fattori principali: disponibilità e disaster recovery. Entrambe le aree si basano su alcune delle stesse best practice, come il monitoraggio degli errori, l'implementazione in più sedi e il failover automatico. Tuttavia, la disponibilità si concentra sui componenti dei microservizi MES, mentre il disaster recovery si concentra sulle copie discrete dell'intero microservizio o addirittura dell'intero sistema MES.

## Disponibilità
<a name="availability"></a>

Definiamo *la disponibilità come la* percentuale di tempo in cui un microservizio è disponibile per l'uso, come illustrato nella formula seguente. Questa percentuale viene calcolata su un periodo di tempo, ad esempio un mese, un anno o gli ultimi tre anni.

![Formula di disponibilità per le architetture MES](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/mes-on-aws/images/formula.png)


Questa formula richiede la comprensione di tre metriche comuni nella produzione e nella manutenzione delle apparecchiature:
+ **Tempo medio tra i guasti (MTBF)**: il tempo medio tra l'inizio delle normali operazioni di un microservizio e il successivo guasto.
+ **Tempo medio di rilevamento (MTTD)**: il tempo medio tra il verificarsi di un guasto e l'inizio delle operazioni di riparazione.
+ **Tempo medio di riparazione (MTTR)**: il tempo medio che intercorre tra l'indisponibilità di un microservizio a causa di un guasto del sottosistema e la riparazione o il ripristino del servizio. MTTD è un sottoinsieme di MTTR.

Il diagramma seguente illustra queste metriche di disponibilità.

![Metriche di disponibilità per le architetture MES](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/mes-on-aws/images/availability.png)


Un MES resiliente e ad alta disponibilità mira a ridurre MTTR e MTTD e ad aumentare l'MTBF. Sebbene un design ideale eliminerebbe i guasti, non è realistico. I tradizionali guasti monolitici del MES erano difficili da rilevare e richiedevano più tempo per essere riparati. Il moderno sistema MES nativo per il cloud consente un rilevamento più rapido, riparazioni rapide e continuità aziendale attraverso implementazioni Multi-AZ. Per le migliori pratiche per sistemi moderni ad alta disponibilità con AWS servizi pertinenti, consulta il white paper [Availability and Beyond: Understanding and Improving the Resilience of Distributed Systems on AWS](https://docs.aws.amazon.com/whitepapers/latest/availability-and-beyond-improving-resilience/availability-and-beyond-improving-resilience.html).

## Ripristino di emergenza
<a name="disaster-recovery"></a>

Il disaster recovery si riferisce al processo di preparazione e ripristino da un disastro legato alla tecnologia, ad esempio un grave guasto hardware o software. Un evento che impedisce a un microservizio, o MES, di raggiungere gli obiettivi aziendali nella sua sede principale di implementazione è considerato un disastro. Il disaster recovery è diverso dalla disponibilità e viene misurato in base a queste due metriche:
+ **Recovery Time Objective (RTO)**: il ritardo accettabile tra l'interruzione di un microservizio e il ripristino del microservizio. L'RTO determina quella che viene considerata una finestra temporale accettabile quando il servizio non è disponibile.
+ **Recovery Point Objective (RPO)**: il periodo di tempo massimo accettabile dall'ultimo punto di ripristino dei dati. L'RPO determina ciò che è considerato una perdita di dati accettabile tra l'ultimo punto di ripristino e l'interruzione dei microservizi.

Il diagramma seguente illustra queste metriche di disaster recovery.

![Metriche di disaster recovery per le architetture MES](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/mes-on-aws/images/rpo-rto.png)


Il diagramma seguente illustra diverse strategie di disaster recovery.

![Strategie di disaster recovery per architetture MES](http://docs.aws.amazon.com/it_it/prescriptive-guidance/latest/mes-on-aws/images/dr-strategies.png)


Puoi trovare indicazioni dettagliate sull'implementazione di queste strategie nella guida AWS Well-Architected Framework[, Disaster Recovery of Workloads AWS on: Recovery](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-workloads-on-aws.html) in the Cloud.