

# OPS11-BP02 Eseguire l'analisi post-incidente
<a name="ops_evolve_ops_perform_rca_process"></a>

 Esamina gli eventi che influiscono sui clienti e identifica i fattori che contribuiscono e le azioni preventive. Utilizza queste informazioni per sviluppare modi per limitare o prevenire il ripetersi degli incidenti. Sviluppa procedure per attivare risposte rapide ed efficaci. Comunica i fattori che hanno contribuito al presentarsi dell'imprevisto e le azioni correttive secondo necessità, specificamente mirate per il pubblico di destinazione. 

 **Risultato desiderato:** 
+  Stabilisci processi di gestione degli incidenti che includono l'analisi post-incidente. 
+  Hai a disposizione piani di osservabilità per raccogliere dati sugli eventi. 
+  Con questi dati comprendi e raccogli metriche che supportano il tuo processo di analisi post-incidente. 
+  Impari dagli incidenti per migliorare i risultati futuri. 

 **Anti-pattern comuni:** 
+  Sei amministratore di un server di applicazioni. Circa ogni 23 ore e 55 minuti tutte le sessioni attive vengono terminate. Hai tentato di identificare ciò che non va a buon fine sul server di applicazioni. Sospetti che potrebbe trattarsi di un problema di rete, ma non riesci a ottenere la collaborazione dal team di rete perché i suoi membri sono troppo occupati per supportarti. Ti manca un processo predefinito da seguire per ottenere supporto e raccogliere le informazioni necessarie per stabilire che cosa sta accadendo. 
+  Si è verificata una perdita di dati all'interno del carico di lavoro. Questa è la prima volta che si è verificata e la causa non è immediatamente identificabile. Decidi che non è importante perché puoi ricreare i dati. La perdita di dati inizia a verificarsi con maggiore frequenza e influisce sui clienti. Questo comporta inoltre un ulteriore onere operativo quando ripristini i dati mancanti. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Disponendo di un processo predefinito per determinare i componenti, le condizioni, le azioni e gli eventi che hanno contribuito a un incidente, sei in grado di identificare le opportunità di miglioramento. 
+  Utilizzi i dati dell'analisi post-incidente per apportare miglioramenti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Utilizza un processo per determinare i fattori determinanti. Esamina tutti gli incidenti che influiscono sul cliente. Predisponi un processo per identificare e documentare i fattori che contribuiscono a un incidente, in modo da sviluppare azioni di mitigazione in grado di limitare o impedire il suo ripetersi e per sviluppare procedure che consentano risposte rapide ed efficaci. Comunica le cause principali degli incidenti in modo appropriato e personalizza la comunicazione in base al pubblico di destinazione. Condividi quanto appreso in maniera aperta all'interno della tua organizzazione. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  Raccogli metriche come le modifiche all'implementazione e alla configurazione, l'ora di inizio dell'incidente, l'ora dell'allarme, dell'intervento, dell'inizio della mitigazione e il tempo di risoluzione dell'incidente. 

1.  Descrivi i momenti fondamentali sulla linea temporale per comprendere gli eventi dell'incidente. 

1.  Poniti le seguenti domande: 

   1.  Potresti migliorare il tempo di rilevamento? 

   1.  Sono presenti aggiornamenti alle metriche e agli allarmi che permettono di rilevare l'incidente prima? 

   1.  Puoi migliorare i tempi di diagnosi? 

   1.  Sono presenti aggiornamenti ai tuoi piani di risposta o di escalation che potrebbero coinvolgere prima i team di risposta corretti? 

   1.  Puoi migliorare il tempo necessario per la mitigazione? 

   1.  Ci sono passaggi del runbook o del playbook che potresti aggiungere o migliorare? 

   1.  È possibile prevenire che si verifichino incidenti futuri? 

1.  Crea liste di controllo e azioni. Monitora ed esegui tutte le azioni. 

 **Livello di impegno per il piano di implementazione:** medio 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS11-BP01 Definizione di un processo per il miglioramento continuo](ops_evolve_ops_process_cont_imp.md) 
+ [OPS4 - Implementare l'osservabilità](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)

 **Documenti correlati:** 
+  [Performing a post-incident analysis in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html) 
+  [Revisione della prontezza operativa](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 