# OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi
<a name="ops_event_response_event_incident_problem_process"></a>

La capacità di gestire in modo efficiente eventi, incidenti e problemi è fondamentale per mantenere l'integrità e le prestazioni del carico di lavoro. È essenziale riconoscere e comprendere le differenze tra questi elementi per sviluppare una strategia di risposta e risoluzione efficace. Stabilire e seguire un processo ben definito per ogni aspetto facilita la gestione rapida ed efficace da parte del tuo team di qualsiasi sfida operativa che si presenti.

 **Risultato desiderato:** la tua organizzazione gestisce efficacemente eventi operativi, incidenti e problemi attraverso processi ben documentati e archiviati a livello centrale. Questi processi vengono costantemente aggiornati per riflettere le modifiche, semplificando la gestione e mantenendo l'affidabilità del servizio e delle prestazioni dei carichi di lavoro elevata. 

 **Anti-pattern comuni:** 
+  Rispondi in modo reattivo, anziché proattivo, agli eventi. 
+  Vengono adottati approcci incoerenti a diversi tipi di eventi o incidenti. 
+ La tua organizzazione non effettua analisi e non impara dagli incidenti per prevenire eventi futuri.

 **Vantaggi dell'adozione di questa best practice:** 
+  Processi di risposta semplificati e standardizzati. 
+  Riduzione dell'impatto degli incidenti su servizi e clienti. 
+  Risoluzione rapida dei problemi. 
+  Miglioramento continuo dei processi operativi. 

 **Livello di rischio associato se questa best practice non fosse adottata:** elevato 

## Guida all’implementazione
<a name="implementation-guidance"></a>

 L'implementazione di questa best practice prevede la registrazione degli eventi dei carichi di lavoro. Per la gestione di incidenti e problemi, è necessario ricorrere ai processi. I processi sono documentati, condivisi e aggiornati con frequenza. I problemi vengono identificati, classificati in base alla priorità e corretti. 

 **Informazioni su eventi, incidenti e problemi** 
+  **Eventi:** un *evento* è l'adempimento di un'azione, un'occorrenza o un cambiamento di stato. Gli eventi possono essere pianificati o non pianificati e possono avere origine all'interno o all'esterno del carico di lavoro. 
+  **Incidenti:** gli *incidenti* sono eventi che richiedono una risposta, come interruzioni non pianificate o il peggioramento della qualità del servizio. Rappresentano interruzioni che richiedono un'attenzione immediata al fine di ripristinare il normale funzionamento del carico di lavoro. 
+  **Problemi:** i *problemi* sono le cause alla base di uno o più incidenti. Identificare e risolvere i problemi implica approfondire gli incidenti per prevenire eventi futuri. 

### Passaggi dell'implementazione
<a name="implementation-steps"></a>

 **Eventi** 

1.  **Monitora gli eventi:** 
   +  [Implementa l'osservabilità](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) e [sfrutta l'osservabilità del carico di lavoro](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Le azioni di monitoraggio intraprese da un utente, ruolo o servizio AWS vengono registrate come eventi in [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Rispondi alle modifiche operative delle tue applicazioni in tempo reale con [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Valuta, monitora e registra continuamente le modifiche alla configurazione delle risorse con [AWS Config](https://aws.amazon.com/config/). 

1.  **Crea processi:** 
   +  Sviluppa un processo per valutare quali eventi sono significativi e richiedono di essere monitorati. Ciò comporta l'impostazione di soglie e parametri per le attività normali e anomale. 
   +  Determina i criteri in base ai quali un evento viene segnalato come un incidente, ad esempio, la gravità dell'evento, l'impatto sugli utenti o la deviazione dal comportamento previsto. 
   +  Rivedi regolarmente i processi di monitoraggio e risposta agli eventi. Ciò include l'analisi degli incidenti passati, l'adeguamento delle soglie e il perfezionamento dei meccanismi di avviso. 

 **Incidenti** 

1.  **Rispondi agli incidenti:** 
   +  Usa gli approfondimenti degli strumenti di osservabilità per identificare e rispondere rapidamente agli incidenti. 
   +  Implementa [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter) per aggregare, organizzare e dare priorità agli elementi operativi e agli incidenti. 
   +  Utilizza servizi come [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) e [AWS X-Ray](https://aws.amazon.com/xray/) per analisi e risoluzione dei problemi più approfondite. 
   +  Prendi in considerazione [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) per una gestione degli incidenti avanzata, sfruttandone funzionalità proattive, preventive e investigative. AMS estende il supporto operativo con servizi come monitoraggio, rilevamento, risposta agli incidenti e gestione della sicurezza. 
   +  Per i clienti del supporto Enterprise, [AWS Incident Detection and Response](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) offre un monitoraggio proattivo continuo e la gestione degli incidenti per i carichi di lavoro di produzione. 

1.  **Crea un processo di gestione degli incidenti:** 
   +  Definisci un processo strutturato di gestione degli incidenti, che includa ruoli, protocolli di comunicazione e passaggi per la risoluzione chiari. 
   +  Integra la gestione degli incidenti con strumenti come [Amazon Q Developer nelle applicazioni di chat](https://aws.amazon.com/chatbot/) per garantire l'efficienza nella risposta e nel coordinamento. 
   +  Suddividi in categorie gli incidenti in base alla gravità, con [piani di risposta agli incidenti](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefiniti per ciascuna di esse. 

1.  **Apprendi e migliora:** 
   +  Effettua [analisi post-incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) per comprendere le cause principali e l'efficacia della risoluzione. 
   +  Aggiorna e migliora continuamente i piani di risposta in base alle revisioni e alle pratiche in evoluzione. 
   +  Documenta e condividi le lezioni apprese tra i team per migliorare la resilienza operativa. 
   +  I clienti del supporto Enterprise possono rivolgersi al proprio Technical Account Manager per il [workshop sulla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives). Questo workshop guidato consente di verificare il piano di risposta agli incidenti esistente e ti aiuta a individuare eventuali aree da migliorare. 

 **Problemi** 

1.  **Identifica i problemi:** 
   +  Utilizza i dati degli incidenti passati per identificare modelli ricorrenti che potrebbero indicare la presenza di problemi sistemici più profondi. 
   +  Sfrutta strumenti come [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) e [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) per l'analisi delle tendenze e l'individuazione dei problemi alla base. 
   +  Coinvolgi team interfunzionali, ad esempio i team dediti alle operazioni, allo sviluppo e i reparti aziendali, per ottenere prospettive diverse sulle cause principali. 

1.  **Crea un processo di gestione dei problemi:** 
   +  Sviluppa un processo strutturato per la gestione dei problemi, concentrandoti su soluzioni a lungo termine piuttosto che su correzioni rapide. 
   +  Incorpora tecniche di analisi delle cause principali (RCA) per indagare e comprendere le cause alla base degli incidenti. 
   +  Aggiorna policy e procedure operative e l'infrastruttura in base agli esiti per prevenire il ripetersi degli incidenti. 

1.  **Continua a migliorare:** 
   +  Promuovi una cultura di apprendimento e miglioramento continui, incoraggiando i team a identificare e affrontare in modo proattivo i problemi potenziali. 
   +  Analizza e rivedi regolarmente i processi e gli strumenti di gestione dei problemi per allinearli agli scenari aziendali e tecnologici in evoluzione. 
   +  Condividi approfondimenti e best practice in tutta l'organizzazione per creare un ambiente operativo più resiliente ed efficiente. 

1.  **Integra Supporto AWS:** 
   +  Consulta le risorse di supporto AWS, come [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), per indicazioni proattive e suggerimenti in merito all'ottimizzazione. 
   +  I clienti del supporto Enterprise hanno a disposizione programmi dedicati, come [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/), per ricevere assistenza durante gli eventi critici. 

 **Livello di impegno per il piano di implementazione:** medio 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Identifica gli indicatori chiave di prestazione](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementare la telemetria delle applicazioni](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Utilizzo dei playbook per analizzare i problemi](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analizza le metriche del carico di lavoro](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Eseguire l'analisi post-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documenti correlati:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Rilevamento e risposta agli incidenti di AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video correlati:** 
+ [ Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [ Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Esempi correlati:** 
+  [AWS Proactive Services: workshop sulla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [ How to Automate Incident Response with PagerDuty and Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [ Engage Incident Responders with the On-Call Schedules in Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [ Improve the Visibility and Collaboration during Incident Handling in Strumento di gestione degli incidenti AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [ Incident reports and service requests in AMS ](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)