# Operatività
<a name="a-operate"></a>

**Topics**
+ [OPS 8 Come fai a comprendere lo stato del tuo carico di lavoro?](ops-08.md)
+ [OPS 9 Come fai a comprendere lo stato delle operazioni?](ops-09.md)
+ [OPS 10 In che modo gestisci gli eventi del carico di lavoro e delle operazioni?](ops-10.md)

# OPS 8 Come fai a comprendere lo stato del tuo carico di lavoro?
<a name="ops-08"></a>

 Definisci, acquisisci e analizza i parametri del carico di lavoro per ottenere visibilità sugli eventi del carico di lavoro, in modo da intraprendere le azioni appropriate. 

**Topics**
+ [OPS08-BP01 Identificazione degli indicatori chiave di prestazione](ops_workload_health_define_workload_kpis.md)
+ [OPS08-BP02 Definizione delle metriche del carico di lavoro](ops_workload_health_design_workload_metrics.md)
+ [OPS08-BP03 Raccolta e analisi delle metriche del carico di lavoro](ops_workload_health_collect_analyze_workload_metrics.md)
+ [OPS08-BP04 Definizione di valori di riferimento per le metriche del carico di lavoro](ops_workload_health_workload_metric_baselines.md)
+ [OPS08-BP05 Studio dei modelli di attività previsti per il carico di lavoro](ops_workload_health_learn_workload_usage_patterns.md)
+ [OPS08-BP06 Attivazione di un avviso quando i risultati del carico di lavoro sono a rischio](ops_workload_health_workload_outcome_alerts.md)
+ [OPS08-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nel carico di lavoro](ops_workload_health_workload_anomaly_alerts.md)
+ [OPS08-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri](ops_workload_health_biz_level_view_workload.md)

# OPS08-BP01 Identificazione degli indicatori chiave di prestazione
<a name="ops_workload_health_define_workload_kpis"></a>

 Identifica gli indicatori chiave delle prestazioni (KPI) in base ai risultati aziendali desiderati (ad esempio, tasso di ordini, tasso di conservazione dei clienti e profitti rispetto alle spese operative) e ai risultati dei clienti (ad esempio, soddisfazione dei clienti). Valuta i KPI per determinare il successo del carico di lavoro. 

 **Anti-pattern comuni:** 
+  I dirigenti aziendali ti chiedono in che modo un carico di lavoro sia stato in grado di soddisfare le esigenze aziendali, ma non disponi di un quadro di riferimento per determinare il successo. 
+  Non sei in grado di stabilire se l'applicazione pronta all'uso commerciale utilizzata per la tua organizzazione è conveniente. 

 **Vantaggi dell'adozione di questa best practice:** Identificando indicatori chiave delle prestazioni, puoi ottenere risultati aziendali da utilizzare come test dello stato e del successo del carico di lavoro. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Identificazione degli indicatori chiave di prestazione: identifica gli indicatori chiave di prestazione (KPI) basati su risultati attesi in termini di business e clienti. Valuta i KPI per determinare il successo del carico di lavoro. 

# OPS08-BP02 Definizione delle metriche del carico di lavoro
<a name="ops_workload_health_design_workload_metrics"></a>

Definisci le metriche per la misurazione dell'integrità del carico di lavoro. L'integrità del carico di lavoro viene misurata attraverso il raggiungimento dei risultati aziendali (KPI) e lo stato dei componenti e delle applicazioni del carico di lavoro. Esempi di KPI sono i carrelli abbandonati, gli ordini effettuati, i costi, i prezzi e la spesa allocata per il carico di lavoro. Anche se puoi raccogliere dati di telemetria da più componenti, scegli un sottoinsieme in grado di fornire informazioni dettagliate sull'integrità complessiva del carico di lavoro. Modifica le metriche del carico di lavoro nel corso del tempo in base al mutare delle esigenze aziendali. 

 **Risultato desiderato:** 
+  Identificazione delle metriche per la convalida della realizzazione dei KPI che riflettono i risultati aziendali. 
+  Presenza di metriche che mostrano una visione coerente dell'integrità del carico di lavoro. 
+  Valutazione periodica delle metriche del carico di lavoro in base al mutare delle esigenze aziendali. 

 **Anti-pattern comuni:** 
+ Tutte le applicazioni nel carico di lavoro vengono monitorate, ma senza riuscire a determinare se il carico di lavoro sia in grado di raggiungere i risultati aziendali.
+ Sono state definite metriche del carico di lavoro, ma senza associarle ad alcun KPI aziendale.

 **Vantaggi dell'adozione di questa best practice:** 
+  Possibilità di misurare il carico di lavoro rispetto alla realizzazione dei risultati aziendali. 
+  Capacità di determinare se il carico di lavoro è integro o necessita di interventi. 

 **Livello di rischio associato alla mancata adozione di questa best practice:** elevato 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 L'obiettivo della best practice è rispondere a questa domanda: il carico di lavoro è integro? L'integrità del carico di lavoro viene misurata attraverso il raggiungimento dei risultati aziendali e lo stato dei componenti e delle applicazioni nel carico di lavoro. Procedi a ritroso dai KPI aziendali per identificare le metriche. Identifica le metriche principali dai componenti e dalle applicazioni. Esamina periodicamente le metriche del carico di lavoro in base al mutare delle esigenze aziendali. 

 **Esempio del cliente** 

 Presso AnyCompany Retail l'integrità del carico di lavoro viene determinata tramite una raccolta di metriche per le applicazioni e i componenti. Partendo dai KPI aziendali, vengono identificate metriche come la percentuale di ordini che indicano la realizzazione dei risultati aziendali. L'azienda include anche importanti metriche delle applicazioni, come la risposta delle pagine, e dei componenti, come le connessioni di database aperte. Ogni trimestre l'azienda rivaluta le metriche del carico di lavoro per verificare che siano ancora valide nel determinare l'integrità del carico di lavoro. 

 **Passaggi dell'implementazione** 

1.  Partendo dai KPI aziendali, identifica le metriche che indicano la realizzazione dei risultati aziendali. Se per alcuni KPI non sono disponibili metriche, esegui la strumentazione del carico di lavoro con metriche aggiuntive per i KPI aziendali mancanti. 

   1.  Puoi pubblicare metriche personalizzate dall'applicazione in [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html). 

   1.  [AWS Distro per OpenTelemetry](https://aws-otel.github.io/) può raccogliere metriche da applicazioni esistenti e aggiungerne di nuove. 

   1.  I clienti con un piano di supporto Enterprise possono richiedere il [workshop sulla creazione di una strategia di monitoraggio](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) al proprio Technical Account Manager. Questo workshop aiuta a creare una strategia di visibilità per il carico di lavoro. 

1.  Identifica le metriche per le applicazioni e i componenti nel carico di lavoro. Quali sono le principali metriche che indicano l'integrità di singoli componenti e applicazioni? Anche se applicazioni e componenti possono generare molte metriche diverse, scegli da una a tre metriche in grado di indicare l'integrità complessiva. 

1.  Implementa un meccanismo per valutare periodicamente le metriche del carico di lavoro. Quando i KPI aziendali cambiano, collabora con gli stakeholder per aggiornare le metriche del carico di lavoro. Con l'evolvere dei componenti e delle applicazioni del carico di lavoro, modifica le metriche di conseguenza. 

 **Livello di impegno per il piano di implementazione:** medio. L'aggiunta di metriche per KPI aziendali alle applicazioni può richiedere un impegno moderato. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS04-BP01 Implementazione della telemetria dell'applicazione](ops_telemetry_application_telemetry.md) – L'applicazione deve emettere dati di telemetria per supportare i risultati aziendali. 
+  [OPS04-BP02 Implementazione e configurazione della telemetria del carico di lavoro](ops_telemetry_workload_telemetry.md) – Devi eseguire la strumentazione del carico di lavoro per emettere dati di telemetria prima di poter definire le metriche del carico di lavoro che supportano i risultati aziendali. 
+  [OPS08-BP01 Identificazione degli indicatori chiave di prestazione](ops_workload_health_define_workload_kpis.md) – Devi identificare gli indicatori chiave di prestazioni prima di selezionare le metriche del carico di lavoro. 

 **Documenti correlati:** 
+ [ Aggiunta di metriche e tracce all'applicazione in Amazon EKS con AWS Distro per OpenTelemetry, AWS X-Ray e Amazon CloudWatch ](https://aws.amazon.com/blogs/mt/adding-metrics-and-traces-to-your-application-on-amazon-eks-with-aws-distro-for-opentelemetry-aws-x-ray-and-amazon-cloudwatch/)
+ [Strumentazione di sistemi distribuiti per visibilità operativa](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility/)
+ [implementazione dei controlli dello stato](https://aws.amazon.com/builders-library/implementing-health-checks/)
+ [Come monitorare le applicazioni in modo efficace](https://aws.amazon.com/startups/start-building/how-to-monitor-applications/)
+ [Come monitorare meglio le metriche personalizzate dell'applicazione usando l'agente Amazon CloudWatch ](https://aws.amazon.com/blogs/devops/new-how-to-better-monitor-your-custom-application-metrics-using-amazon-cloudwatch-agent/)

 **Video correlati:** 
+ [AWS re:Invent 2020: Monitoraggio dei servizi di produzione in Amazon ](https://www.youtube.com/watch?v=hnPcf_Czbvw)
+ [AWS re:Invent 2022: Creazione di applicazioni osservabili con OpenTelemetry (BOA310) ](https://www.youtube.com/watch?v=efk8XFJrW2c)
+ [ Come configurare facilmente il monitoraggio dell'applicazione per i carichi di lavoro AWS – AWS Online Tech Talks](https://www.youtube.com/watch?v=LKCth30RqnA)
+ [ Controllo della visibilità delle applicazioni serverless – AWS Online Tech Talks](https://www.youtube.com/watch?v=CtsiXhiAUq8)

 **Esempi correlati:** 
+ [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro)

 **Servizi correlati:** 
+ [ Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [AWS Distro per OpenTelemetry](https://aws-otel.github.io/)

# OPS08-BP03 Raccolta e analisi delle metriche del carico di lavoro
<a name="ops_workload_health_collect_analyze_workload_metrics"></a>

Esegui regolarmente revisioni proattive delle metriche del carico di lavoro per identificare le tendenze, determinare se sia necessaria una risposta e convalidare il raggiungimento dei risultati aziendali. Aggrega le metriche delle applicazioni e dei componenti del carico di lavoro in una posizione centrale. Usa dashboard e strumenti di analisi per analizzare i dati di telemetria e determinare l'integrità del carico di lavoro. Implementa un meccanismo per lo svolgimento periodico di revisioni dell'integrità del carico di lavoro con gli stakeholder nell'organizzazione. 

 **Risultato desiderato:** 
+  Raccolta delle metriche del carico di lavoro in una posizione centrale. 
+  Uso di dashboard e strumenti di analisi per esaminare le tendenze in fatto di integrità del carico di lavoro. 
+  Svolgimento di revisioni periodiche delle metriche del carico di lavoro con l'organizzazione. 

 **Anti-pattern comuni:** 
+  L'organizzazione raccoglie metriche dal carico di lavoro in due piattaforme di osservazione diverse. Non è possibile determinare l'integrità del carico di lavoro perché le piattaforme sono incompatibili. 
+  I tassi di errore per un componente del carico di lavoro aumentano lentamente. Questa tendenza non viene rilevata perché l'organizzazione non svolge revisioni periodiche delle metriche del carico di lavoro. Il componente si guasta dopo una settimana, danneggiando il carico di lavoro. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Maggiore consapevolezza riguardo all'integrità del carico di lavoro e alla realizzazione dei risultati aziendali. 
+  Possibilità di sviluppare le tendenze in fatto di integrità del carico di lavoro nel corso del tempo. 

 **Livello di rischio associato alla mancata adozione di questa best practice:** elevato 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Raccogli le metriche del carico di lavoro in una posizione centrale. Usando dashboard e strumenti di analisi, esamina le metriche del carico di lavoro per ottenere informazioni dettagliate sulla sua integrità, sviluppare tendenze in fatto di integrità e convalidare la realizzazione dei risultati aziendali. Implementa un meccanismo per lo svolgimento di revisioni periodiche delle metriche del carico di lavoro. 

 **Esempio del cliente** 

 AnyCompany Retail svolge revisioni delle metriche del carico di lavoro il mercoledì di ogni settimana. L'azienda riunisce tutti gli stakeholder ed esamina le metriche della settimana precedente. Durante la riunione, vengono evidenziate le tendenze e le informazioni dettagliate raccolte dagli strumenti di analisi. Vengono pubblicate dashboard interne con le principali metriche del carico di lavoro, che qualsiasi dipendente può visualizzare e interrogare. 

 **Passaggi dell'implementazione** 

1.  Identifica le metriche del carico di lavoro associate alla sua integrità. Partendo dai KPI aziendali, identifica le metriche per le applicazioni, i componenti e le piattaforme che forniscono una visione complessiva dell'integrità del carico di lavoro. 

   1.  Puoi pubblicare metriche personalizzate in [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html). Puoi utilizzare l'[agente Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) per raccogliere metriche e log da istanze Amazon EC2 e server on-premise. 

   1.  [AWS Distro per OpenTelemetry](https://aws-otel.github.io/) può raccogliere metriche da applicazioni esistenti e aggiungerne di nuove. 

   1.  I clienti con un piano di supporto Enterprise possono richiedere il [workshop sulla creazione di una strategia di monitoraggio](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) al proprio Technical Account Manager. Questo workshop aiuta a sviluppare una strategia di visibilità per il tuo carico di lavoro. 

1.  Raccogli le metriche del carico di lavoro in una posizione centrale. Se le metriche del carico di lavoro sono suddivise tra piattaforme diverse, può essere difficile analizzare e sviluppare le tendenze. La piattaforma deve includere dashboard e funzionalità di analisi. 

   1.  [Amazon CloudWatch](https://docs.aws.amazon.com/) può raccogliere e archiviare le metriche del carico di lavoro. In topologie con più account è consigliabile predisporre un [account di registrazione e monitoraggio centrale](https://docs.aws.amazon.com/prescriptive-guidance/latest/security-reference-architecture/log-archive.html), noto come *account archivio dei log*. 

1.  Crea una dashboard consolidata delle metriche del carico di lavoro. Usa questa visualizzazione per le revisioni delle metriche e l'analisi delle tendenze. 

   1.  Puoi creare [dashboard CloudWatch personalizzate](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) per raccogliere le metriche del carico di lavoro in una visualizzazione consolidata. 

1.  Implementa un processo di revisione delle metriche del carico di lavoro. Esamina le metriche del carico di lavoro ogni settimana, ogni due settimane o ogni mese con gli stakeholder, incluso il personale tecnico e non tecnico. Usa queste sessioni di revisione per identificare le tendenze e ottenere informazioni dettagliate sull'integrità del carico di lavoro. 

 **Livello di impegno per il piano di implementazione:** elevato Se le metriche del carico di lavoro non vengono raccolte a livello centrale, può essere necessario un investimento significativo per consolidarle in un'unica piattaforma. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP01 Identificazione degli indicatori chiave di prestazione](ops_workload_health_define_workload_kpis.md) – Devi identificare gli indicatori chiave di prestazioni prima di selezionare le metriche del carico di lavoro. 
+  [OPS08-BP02 Definizione delle metriche del carico di lavoro](ops_workload_health_design_workload_metrics.md) – Devi definire le metriche del carico di lavoro prima di raccoglierle e analizzarle. 

 **Documenti correlati:** 
+ [ Efficienza delle informazioni operative con Amazon Quick ](https://aws.amazon.com/blogs/big-data/power-operational-insights-with-amazon-quicksight/)
+ [ Uso di widget personalizzati in dashboard Amazon CloudWatch ](https://aws.amazon.com/blogs/mt/introducing-amazon-cloudwatch-dashboards-custom-widgets/)

 **Video correlati:** 
+ [ Creazione di dashboard CloudWatch tra account e regioni ](https://www.youtube.com/watch?v=eIUZdaqColg)
+ [ Monitoraggio delle risorse AWS tramite dashboard Amazon CloudWatch ](https://www.youtube.com/watch?v=I7EFLChc07M)

 **Esempi correlati:** 
+ [ Workshop sugli strumenti di gestione e governance AWS – Dashboard CloudWatch ](https://mng.workshop.aws/operations-2022/detect/cwdashboard.html)
+ [ Well-Architected Lab – Livello 100: Monitoraggio con dashboard CloudWatch ](https://www.wellarchitectedlabs.com/performance-efficiency/100_labs/100_monitoring_with_cloudwatch_dashboards/)

 **Servizi correlati:** 
+  [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+ [AWS Distro per OpenTelemetry](https://aws-otel.github.io/)

# OPS08-BP04 Definizione di valori di riferimento per le metriche del carico di lavoro
<a name="ops_workload_health_workload_metric_baselines"></a>

La definizione di valori di riferimento per le metriche del carico di lavoro semplifica la comprensione dell'integrità e delle prestazioni del carico di lavoro. Usando valori di riferimento, puoi identificare le applicazioni e i componenti che hanno prestazioni eccessive o insufficienti. La definizione di valori di riferimento per il carico di lavoro migliora la tua capacità di mitigare i problemi prima che diventino incidenti. I valori di riferimento sono alla base dello sviluppo di modelli di attività e dell'implementazione del rilevamento delle anomalie quando le metriche deviano dai valori previsti. 

 **Risultato desiderato:** 
+  Disponibilità di un livello di riferimento per le metriche del carico di lavoro in condizioni normali. 
+  Possibilità di determinare se il carico di lavoro funziona normalmente. 

 **Anti-pattern comuni:** 
+  Dopo aver implementato una nuova funzionalità, la latenza delle richieste peggiora. Non sono stati definiti valori di riferimento per una metrica composita relativa alle richieste in ingresso elaborate e alla latenza complessiva. Non è possibile determinare se la modifica abbia causato un miglioramento o un problema. 
+  Si verifica un picco improvviso nell'attività degli utenti, ma non sono stati definiti valori di riferimento per le metriche. Il picco di attività causa gradatamente una perdita di memoria in un'applicazione. Questo problema finisce per portare il carico di lavoro offline. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Comprensione del modello normale di attività per il carico di lavoro usando metriche per i componenti e le applicazioni principali. 
+  Capacità di determinare se il carico di lavoro, le applicazioni e i componenti si comportano normalmente o se è necessario intervenire. 

 **Livello di rischio associato alla mancata adozione di questa best practice:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 Usa dati cronologici per definire valori di riferimento per le metriche del carico di lavoro per le applicazioni e i componenti al suo interno. Utilizza valori di riferimento durante le riunioni di revisione delle metriche e per la risoluzione dei problemi. Esamina periodicamente le prestazioni del carico di lavoro e modifica i valori di riferimento in base all'evoluzione dell'architettura. 

 **Esempio del cliente** 

 In AnyCompany Retail vengono definiti valori di riferimento per tutti i componenti e le applicazioni. Usando dati cronologici, AnyCompany Retail ha sviluppato valori di riferimento per le metriche del proprio carico di lavoro in un intervallo di tempo di due mesi. Ogni due mesi l'azienda rivaluta i valori di riferimento e li modifica in base a dati reali. 

 **Passaggi dell'implementazione** 

1.  Procedendo a ritroso dalle metriche del carico di lavoro, definisci valori di riferimento per i componenti e le applicazioni principali usando dati cronologici. Limita il numero di metriche per componente o applicazione ed evita un monitoraggio eccessivo. 

   1.  Puoi usare gli [approfondimenti sulle metriche Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) per eseguire query sulle metriche su larga scala e identificare tendenze e modelli. 

   1.  Il [rilevamento delle anomalie in Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) usa algoritmi di machine learning per identificare i modelli di comportamento per le metriche, determinare valori di riferimento e far emergere le anomalie. 

   1.  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) permette di rilevare i problemi operativi relativi al carico di lavoro usando il machine learning. 

   1.  I clienti con un piano di supporto Enterprise possono richiedere il [workshop sulla creazione di una strategia di monitoraggio](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) al proprio Technical Account Manager. Questo workshop aiuta a creare una strategia di visibilità per il carico di lavoro. 

1.  Implementa un meccanismo per esaminare periodicamente i valori di riferimento delle metriche del carico di lavoro, in particolare prima di eventi aziendali significativi. Almeno una volta a trimestre valuta i valori di riferimento per le metriche del carico di lavoro usando dati cronologici. Usa i valori di riferimento durante le riunioni di revisione delle metriche. 

 **Livello di impegno per il piano di implementazione:** basso. Dopo aver stabilito le metriche del carico di lavoro, la definizione di valori di riferimento può richiedere la raccolta di dati sufficienti per identificare i normali modelli di comportamento. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS08-BP02 Definizione delle metriche del carico di lavoro](ops_workload_health_design_workload_metrics.md) – È necessario innanzitutto definire le metriche del carico di lavoro prima di determinarne i valori di riferimento. 
+  [OPS08-BP03 Raccolta e analisi delle metriche del carico di lavoro](ops_workload_health_collect_analyze_workload_metrics.md) – È necessario organizzare la raccolta e l'analisi delle metriche del carico di lavoro prima di definire i valori di riferimento delle metriche. 
+  [OPS08-BP05 Studio dei modelli di attività previsti per il carico di lavoro](ops_workload_health_learn_workload_usage_patterns.md) – Questa best practice è basata sui valori di riferimento per lo sviluppo delle tendenze di utilizzo. 
+  [OPS08-BP06 Attivazione di un avviso quando i risultati del carico di lavoro sono a rischio](ops_workload_health_workload_outcome_alerts.md) – I valori di riferimento per le metriche sono necessari per identificare le soglie e sviluppare avvisi. 
+  [OPS08-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nel carico di lavoro](ops_workload_health_workload_anomaly_alerts.md) – Il rilevamento delle anomalie richiede la definizione di valori di riferimento per le metriche. 

 **Documenti correlati:** 
+ [ Best practice AWS per la visibilità – Allarmi ](https://aws-observability.github.io/observability-best-practices/tools/alarms/)
+ [Come monitorare le applicazioni in modo efficace](https://aws.amazon.com/startups/start-building/how-to-monitor-applications/)
+ [ Come configurare il rilevamento delle anomalie in CloudWatch per impostare allarmi dinamici, automatizzare le azioni e favorire le vendite online ](https://aws.amazon.com/blogs/mt/how-to-set-up-cloudwatch-anomaly-detection-to-set-dynamic-alarms-automate-actions-and-drive-online-sales/)
+ [ Funzionamento del rilevamento delle anomalie in CloudWatch ](https://aws.amazon.com/blogs/mt/operationalizing-cloudwatch-anomaly-detection/)

 **Video correlati:** 
+ [AWS re:Invent 2020: Monitoraggio dei servizi di produzione in Amazon ](https://www.youtube.com/watch?v=hnPcf_Czbvw)
+ [AWS re:Invent 2021: Come ottenere informazioni dettagliate da metriche operative su larga scala con gli approfondimenti sulle metriche CloudWatch ](https://www.youtube.com/watch?v=xKib0xvbIfo)
+ [AWS re:Invent 2022: Sviluppo di una strategia di visibilità (COP302) ](https://www.youtube.com/watch?v=Ub3ATriFapQ)
+ [AWS Summit DC 2022: Monitoraggio e visibilità per applicazioni moderne ](https://www.youtube.com/watch?v=AHiuyT0B5Gk)
+ [AWS Summit SF 2022 - Visibilità completa e monitoraggio delle applicazioni con AWS (COP310) ](https://www.youtube.com/watch?v=or7uFFyHIX0)

 **Esempi correlati:** 
+ [ Workshop sull'integrazione di AWS CloudTrail e Amazon CloudWatch ](https://catalog.us-east-1.prod.workshops.aws/workshops/2e48b9fc-f721-4417-b811-962b7f31b61c/en-US)

 **Servizi correlati:** 
+ [ Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [ Amazon DevOps Guru ](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

# OPS08-BP05 Studio dei modelli di attività previsti per il carico di lavoro
<a name="ops_workload_health_learn_workload_usage_patterns"></a>

 Definisci modelli di attività del carico di lavoro per identificare comportamenti anomali in modo da rispondere in modo appropriato, se necessario. 

 CloudWatch, tramite la funzionalità [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) , applica algoritmi statistici e di machine learning per generare una gamma di valori previsti che rappresentano il normale comportamento dei parametri. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) può servire per identificare comportamenti anomali tramite la correlazione di eventi, l'analisi dei registri e l'applicazione del machine learning per analizzare la telemetria del carico di lavoro. Se vengono rilevati comportamenti inattesi, fornisce i [parametri e gli eventi correlati](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) con consigli per affrontare il comportamento. 

 **Anti-pattern comuni:** 
+  Stai esaminando i log di utilizzo della rete e vedi che questo è aumentato tra le 11:30 e le 13:30 e poi di nuovo alle 16:30 alle 18:00. Non sai se questo deve essere considerato normale o meno. 
+  I server Web si riavviano ogni sera alle 03:00. Non sai se questo è un comportamento previsto. 

 **Vantaggi dell'adozione di questa best practice:** Acquisendo modelli di comportamento, puoi riconoscere comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Studio di modelli di attività previsti per il carico di lavoro: definisci modelli di attività del carico di lavoro per stabilire quando un comportamento non rientra nei valori previsti, in modo da poter rispondere adeguatamente se necessario. 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 

# OPS08-BP06 Attivazione di un avviso quando i risultati del carico di lavoro sono a rischio
<a name="ops_workload_health_workload_outcome_alerts"></a>

 Attiva un avviso quando i risultati del carico di lavoro sono a rischio, in modo da poter rispondere adeguatamente, se necessario. 

 Idealmente, in precedenza hai identificato una soglia di parametro raggiunta la quale si deve attivare l'allarme, oppure un evento che puoi utilizzare per attivare una risposta automatizzata. 

 In AWS, è possibile utilizzare [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) per creare script canary e monitorare endpoint e API, eseguendo le stesse azioni intraprese dai clienti. Grazie alla telemetria generata e alle [informazioni ottenute](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_Details.html) identifichi i problemi prima che interessino i clienti. 

 Puoi anche utilizzare [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) per cercare e analizzare in modo interattivo i dati di log utilizzando un linguaggio di query appositamente creato. Gli approfondimenti CloudWatch Logs rilevano automaticamente [i campi nei log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData-discoverable-fields.html) dei servizi AWS e i registri eventi personalizzati in JSON. Si dimensiona in base al volume di log e alla complessità delle query e fornisce risposte in pochi secondi, aiutandoti a individuare i fattori associati all'incidente. 

 **Anti-pattern comuni:** 
+  Non disponi della connettività di rete. Nessuno lo sa. Nessuno sta cercando di identificare il motivo o intraprendere un'azione per ripristinare la connettività. 
+  Dopo una patch, le istanze persistenti non sono disponibili, creando disagi agli utenti. I tuoi utenti hanno aperto casi di supporto. Nessuno ha ricevuto notifiche. Nessuno sta intervenendo. 

 **Vantaggi dell'adozione di questa best practice:** Riconoscendo lo stato di rischio dei risultati aziendali e attivando avvisi sulla necessità di intervento, hai l'opportunità di prevenire o mitigare l'impatto di un incidente. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Attivazione di un avviso quando i risultati del carico di lavoro sono a rischio: invia un avviso quando i risultati del carico di lavoro sono a rischio, in modo da rispondere in modo appropriato, se necessario. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nel carico di lavoro
<a name="ops_workload_health_workload_anomaly_alerts"></a>

 Attiva un avviso quando vengono rilevate delle anomalie nel carico di lavoro, in modo da poter rispondere adeguatamente, se necessario. 

 L'analisi dei parametri del carico di lavoro nel corso del tempo potrebbe stabilire modelli di comportamento che puoi quantificare in modo sufficiente per definire un evento o attivare un allarme in risposta. 

 Una volta addestrata, la funzionalità [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) può essere utilizzata per inviare [allarmi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) in caso di anomalie rilevate o può fornire i valori previsti sovrapposti su un [grafico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) di dati dei parametri per un confronto continuo. 

 **Anti-pattern comuni:** 
+  Le vendite del sito Web di vendita al dettaglio sono aumentate improvvisamente e in modo significativo. Nessuno lo sa. Nessuno sta cercando di identificare ciò che ha portato a questo picco. Nessuno interviene per garantire ai clienti un'esperienza di qualità sotto il carico aggiuntivo. 
+  Dopo l'applicazione di una patch, i tuoi server persistenti si riavviano spesso creando disagi gli utenti. In genere i server si riavviano al massimo fino a tre volte. Nessuno lo sa. Nessuno sta cercando di identificare il motivo per cui ciò si verifica. 

 **Vantaggi dell'adozione di questa best practice:** Comprendendo i modelli di comportamento del carico di lavoro, puoi identificare comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Bassa 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Attivazione di un avviso in caso di rilevamento di anomalie: invia un avviso quando vengono rilevate anomalie del carico di lavoro, in modo da rispondere in modo appropriato, se necessario. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri
<a name="ops_workload_health_biz_level_view_workload"></a>

 Crea una vista a livello di business delle tue operazioni del carico di lavoro, per stabilire se le esigenze sono soddisfatte e per identificare gli aspetti da migliorare per raggiungere gli obiettivi di business. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 

 AWS, inoltre, fornisce supporto per strumenti di business intelligence e sistemi per l'analisi di registri di terze parti attraverso API e SDK del servizio AWS (ad esempio Grafana, Kibana e Logstash). 

 **Anti-pattern comuni:** 
+  Il tempo di risposta della pagina non è mai stato considerato determinante per la soddisfazione dei clienti. Non hai mai stabilito un parametro o una soglia per il tempo di risposta della pagina. I tuoi clienti si lamentano della lentezza. 
+  Non hai raggiunto i tuoi obiettivi minimi in termini di tempo di risposta. Nel tentativo di migliorare il tempo di risposta, hai ampliato i server delle applicazioni. Ora stai superando gli obiettivi di tempo di risposta con un margine significativo e disponi anche di una notevole capacità inutilizzata che stai pagando. 

 **Vantaggi dell'adozione di questa best practice:** Esaminando e rivedendo i KPI e i parametri, puoi capire in che modo il carico di lavoro supporta il raggiungimento dei risultati aziendali e identificare i punti di miglioramento per ottenerli. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Basso 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri: crea una panoramica a livello aziendale delle operazioni dei carichi di lavoro per stabilire se le esigenze sono soddisfatte e identificare le aree migliorabili per raggiungere gli obiettivi aziendali. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 
  +  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

# OPS 9 Come fai a comprendere lo stato delle operazioni?
<a name="ops-09"></a>

 Definisci, acquisisci e analizza i parametri delle operazioni per ottenere visibilità sugli eventi delle operazioni, in modo da intraprendere le azioni appropriate. 

**Topics**
+ [OPS09-BP01 Identificazione degli indicatori chiave di prestazione](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Definizione dei parametri delle operazioni](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Raccolta e analisi dei parametri delle operazioni](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Definizione delle baseline per i parametri delle operazioni](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Attivazione di un avviso quando i risultati delle operazioni sono a rischio](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Identificazione degli indicatori chiave di prestazione
<a name="ops_operations_health_define_ops_kpis"></a>

 Identifica gli indicatori chiave di prestazione (KPI) in base all'obiettivo desiderato (ad esempio, fornitura di nuove caratteristiche) e ai risultati dei clienti (ad esempio, casi del servizio clienti). Valuta i KPI per determinare il successo delle operazioni. 

 **Anti-pattern comuni:** 
+  I dirigenti aziendali ti chiedono in che si raggiungono gli obiettivi aziendali con operazioni di successo, ma non disponi di un quadro di riferimento per determinare il successo. 
+  Non sei in grado di determinare se le finestre di manutenzione hanno un impatto sui risultati aziendali. 

 **Vantaggi dell'adozione di questa best practice:** Identificando indicatori chiave delle prestazioni, puoi ottenere risultati aziendali da utilizzare come test dello stato e del successo delle tue operazioni. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Identificazione degli indicatori chiave di prestazione: identifica gli indicatori chiave di prestazione (KPI) basati su risultati attesi in termini di business e clienti. Valuta i KPI per determinare il successo delle operazioni. 

# OPS09-BP02 Definizione dei parametri delle operazioni
<a name="ops_operations_health_design_ops_metrics"></a>

 Definisci i parametri delle operazioni per misurare il raggiungimento dei KPI (ad esempio, distribuzioni riuscite e distribuzioni non riuscite). Definisci i parametri delle operazioni per misurare lo stato delle attività operative (ad esempio, tempo medio per rilevare un incidente (MTTD) e tempo medio per il ripristino (MTTR) in seguito a un incidente). Valuta i parametri per stabilire se le operazioni raggiungono i risultati previsti e per comprendere lo stato delle loro attività. 

 **Anti-pattern comuni:** 
+  I parametri delle operazioni sono basati su ciò che il team ritiene ragionevole. 
+  Si verificano errori nei calcoli dei parametri che produrranno risultati non validi. 
+  Non disponi di parametri definiti per le attività operative. 

 **Vantaggi dell'adozione di questa best practice:** Definendo e valutando i parametri delle operazioni, puoi determinare lo stato delle tue attività operative e misurare i risultati aziendali ottenuti. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alto 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Definizione dei parametri delle operazioni: definisci i parametri delle operazioni per misurare il raggiungimento dei KPI. Definisci i parametri delle operazioni per misurare lo stato delle operazioni e delle relative attività. Valuta i parametri per stabilire se le operazioni raggiungono i risultati previsti e comprendere lo stato delle operazioni. 
  +  [Pubblicazione di parametri personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Ricerca e filtraggio dei dati di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [AWS Answers: Centralized Logging (AWS Answers: registrazione centralizzata)](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Rilevare e reagire a modifiche dello stato della pipeline con Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Pubblicazione di parametri personalizzati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Ricerca e filtraggio dei dati di log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Video correlati:** 
+  Creazione di un piano di monitoraggio 

# OPS09-BP03 Raccolta e analisi dei parametri delle operazioni
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Esegui regolarmente revisioni proattive dei parametri per identificare le tendenze e stabilire dove sono necessarie risposte adeguate. 

 È consigliabile aggregare i dati di registro relativi all'esecuzione delle attività e delle chiamate API operative in un servizio come CloudWatch Logs. Genera parametri dalle osservazioni dei contenuti di log necessari per ottenere informazioni dettagliate sulle prestazioni delle attività operative. 

 In AWS è possibile [esporta i dati di log in Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) oppure [inviare log direttamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) a [Amazon S3](https://aws.amazon.com/s3/) per lo storage a lungo termine. Utilizzando [AWS Glue](https://aws.amazon.com/glue/), è possibile individuare e preparare i dati di log in Amazon S3 per l'analisi, archiviando i metadati associati nel [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), grazie all'integrazione nativa con AWS Glue, quindi, può essere utilizzato per analizzare i dati di log, eseguendo query tramite SQL standard. Utilizzando uno strumento di business intelligence come [Quick](https://aws.amazon.com/quicksight/) puoi visualizzare, esplorare e analizzare i tuoi dati. 

 **Anti-pattern comuni:** 
+  La distribuzione coerente di nuove funzionalità è considerata un indicatore chiave delle prestazioni. Non disponi di un metodo per misurare la frequenza delle distribuzioni. 
+  Registri le distribuzioni, le distribuzioni sottoposte a rollback, le patch e le patch di rollback per tenere traccia delle attività operative, ma nessuno esamina i parametri. 
+  L'obiettivo RTO (Recovery Time Objective) per ripristinare il database perso è di al massimo 15 minuti, definiti quando il sistema è stato distribuito ed era privo di utenti. Ora hai 10.000 utenti e sei in attività da due anni. Un ripristino recente ha richiesto più di due ore. Questo non è stato registrato e nessuno lo sa. 

 **Vantaggi dell'adozione di questa best practice:** Raccogliendo e analizzando i parametri delle operazioni, puoi comprenderne lo stato e ottenere informazioni sulle tendenze che possono avere un impatto di esse o sul raggiungimento dei risultati aziendali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alto 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Raccolta e analisi dei parametri delle operazioni: esegui regolarmente revisioni proattive dei parametri per identificare le tendenze e determinare dove occorrono risposte adeguate. 
  +  [Utilizzare i parametri Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Raccolta di parametri e registri da istanze Amazon EC2 e da server on-premise con l'agente di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Documentazione di riferimento su parametri e dimensioni di Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Raccolta di parametri e registri da istanze Amazon EC2 e da server on-premise con l'agente di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Utilizzare i parametri Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Definizione delle baseline per i parametri delle operazioni
<a name="ops_operations_health_ops_metric_baselines"></a>

 Definisci le baseline per i parametri in modo da fornire i valori previsti di base per il confronto e l'identificazione delle attività operative con prestazioni basse e alte. 

 **Anti-pattern comuni:** 
+  Ti è stato chiesto di indicare il tempo previsto per la distribuzione. Non hai misurato il tempo necessario per la distribuzione e non sei in grado di determinare i tempi previsti. 
+  Ti è stato chiesto di indicare il tempo necessario per risolvere un problema con i server applicazioni. Non disponi di informazioni sul tempo necessario per il ripristino dal primo contatto del cliente. Non disponi di informazioni sul tempo necessario per il ripristino dalla prima identificazione di un problema tramite il monitoraggio. 
+  Ti è stato chiesto il numero del personale di supporto necessario durante il fine settimana. Non hai idea del numero di casi di supporto tipici durante un fine settimana e non puoi fornire una stima. 
+  L'obiettivo del tempo di ripristino per recuperare i database persi è di al massimo 15 minuti, definiti quando il sistema è stato implementato ed era privo di utenti. Ora hai 10.000 utenti e sei in attività da due anni. Non disponi di alcuna informazione su come il tempo di ripristino è cambiato per il database. 

 **Vantaggi dell'adozione di questa best practice:** Definendo i valori dei parametri di base, è possibile valutare i valori dei parametri correnti e le tendenze dei parametri per determinare se è necessaria un'azione. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Studio di modelli di attività previsti per le operazioni: definisci modelli di attività operative per stabilire quando un comportamento non rientra nei valori previsti, in modo da poter rispondere adeguatamente se necessario. 

# OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Definisci modelli di attività operative per identificare comportamenti anomali in modo da rispondere in modo appropriato, se necessario. 

 **Anti-pattern comuni:** 
+  La percentuale di errori di distribuzione è aumentata sostanzialmente di recente. Gli errori vengono risolti in modo indipendente. Non ti accorgi che gli errori corrispondono alle distribuzioni di un nuovo dipendente che non ha familiarità con il sistema di gestione della distribuzione. 

 **Vantaggi dell'adozione di questa best practice:** Studiando i modelli di comportamento, puoi riconoscere comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Studio di modelli di attività previsti per le operazioni: definisci modelli di attività operative per stabilire quando un comportamento non rientra nei valori previsti, in modo da poter rispondere adeguatamente se necessario. 

# OPS09-BP06 Attivazione di un avviso quando i risultati delle operazioni sono a rischio
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Ogni volta che i risultati delle operazioni sono a rischio, è necessario attivare un avviso e determinare le azioni da intraprendere. I risultati delle operazioni sono costituiti da qualsiasi attività che supporta un carico di lavoro in produzione. Sono incluse tutte le operazioni, dall'implementazione di nuove versioni delle applicazioni al ripristino da interruzione. I risultati delle operazioni devono essere trattati con la stessa importanza dei risultati aziendali. 

I team del software devono identificare i parametri e le attività delle operazioni chiave e creare i relativi avvisi. Gli avvisi devono essere tempestivi e fruibili. Se viene generato un avviso, è necessario includere un riferimento a un runbook o un playbook corrispondente. Gli avvisi senza un'azione corrispondente possono portare al cosiddetto affaticamento dagli avvisi ("alert fatigue").

 **Risultato desiderato:** quando le attività operative sono a rischio, vengono inviati avvisi per individuare l'azione da intraprendere. Gli avvisi spiegano il motivo per cui sono stati generati e includono il riferimento a un playbook per analizzare o a un runbook per mitigare. Ove possibile, i runbook vengono automatizzati e vengono inviate le notifiche. 

 **Anti-pattern comuni:** 
+ Si analizza un incidente e vengono compilati i casi di supporto. I casi di supporto stanno violando l'Accordo sul livello di servizio (SLA) ma non vengono generati avvisi. 
+ Un'implementazione in produzione pianificata per mezzanotte è stata ritardata a causa di modifiche del codice dell'ultimo minuto. Non viene generato alcun avviso e l'implementazione si blocca.
+ Si verifica un'interruzione della produzione ma non vengono inviati avvisi.
+  Il tempo di implementazione è costantemente al di sotto delle stime. Non viene intrapresa alcuna azione per analizzare. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Gli avvisi per i risultati delle operazioni a rischio aumentano la tua capacità di supportare il carico di lavoro anticipando i problemi. 
+  I risultati aziendali sono migliorati grazie all'integrità delle operazioni. 
+  Il rilevamento e la risoluzione dei problemi operativi sono migliorati. 
+  L'integrità operativa complessiva è aumentata. 

 **Livello di rischio associato se questa best practice non fosse adottata:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 I risultati delle operazioni devono essere definiti prima di poter inviare gli avvisi. Inizia stabilendo quali attività operative sono più importanti per l'organizzazione: eseguire l'implementazione in produzione in meno di due ore o rispondere a una richiesta di supporto entro un determinato periodo di tempo? L'organizzazione deve definire le attività operative chiave e come vengono misurate in modo che possano essere monitorate, migliorate e segnalate. È necessaria una posizione centrale in cui archiviare e analizzare la telemetria del carico di lavoro e delle operazioni. Lo stesso meccanismo deve essere in grado di attivare un avviso quando l'esito di un'operazione è a rischio. 

 **Esempio del cliente** 

 È stato attivato un allarme CloudWatch durante un'implementazione di routine presso AnyCompany Retail. Il lead time per l'implementazione è stato violato. Amazon EventBridge ha creato un OpsItem in AWS Systems Manager OpsCenter. Il team delle operazioni cloud utilizza un playbook per analizzare il problema e nota che una modifica dello schema richiede più tempo del previsto. Avvisa lo sviluppatore di turno e continua a monitorare l'implementazione. Una volta completata l'implementazione, il team delle operazioni cloud risolve OpsItem. Il team esamina l'incidente per l'analisi dopo il completamento. 

## Passaggi dell'implementazione
<a name="implementation-steps"></a>

1. Se non hai identificato KPI, parametri e attività delle operazioni, lavora sull'implementazione delle best practice precedenti per questa domanda (da OPS09-BP01 a OPS09-BP05). 
   +  I clienti Supporto con [Supporto Enterprise](https://aws.amazon.com/premiumsupport/plans/enterprise/) possono richiedere il [workshop sui KPI operativi](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) al proprio Technical Account Manager (TAM). Questo workshop collaborativo ti aiuta a definire i KPI e i parametri delle operazioni allineati agli obiettivi di business, senza costi aggiuntivi. Contatta il Technical Account Manager per ulteriori informazioni. 

1.  Dopo aver stabilito le attività operative, i KPI e i parametri, configura gli avvisi nella piattaforma di osservabilità. Gli avvisi devono avere un'azione associata, come un playbook o un runbook. Gli avvisi senza un'azione devono essere evitati. 

1.  Occorre valutare nel tempo i parametri, i KPI e le attività delle operazioni per identificare le aree di miglioramento. Acquisisci i feedback in runbook e playbook dagli operatori per identificare le aree di miglioramento nella risposta agli avvisi. 

1.  Gli avvisi devono includere un meccanismo per contrassegnarli come falsi positivi che porta alla revisione delle soglie dei parametri. 

 **Livello di impegno per il piano di implementazione:** medio. Prima di implementare questa best practice, ne esistono diverse altre che devono essere applicate. Una volta identificate le attività operative e stabiliti i KPI operativi, è necessario definire gli avvisi. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS02-BP03 Assegnazione di proprietari identificati alle operazioni che siano responsabili delle relative prestazioni](ops_ops_model_def_activity_owners.md): ogni attività e risultato dell'operazione deve avere un proprietario identificato che è il responsabile e deve essere avvisato quando i risultati sono a rischio. 
+  [OPS03-BP02 Potere di intervento dei membri del team quando i risultati sono a rischio](ops_org_culture_team_emp_take_action.md): quando vengono generati avvisi, il tuo team deve disporre dell'autorità per agire e risolvere il problema. 
+  [OPS09-BP01 Identificazione degli indicatori chiave di prestazione](ops_operations_health_define_ops_kpis.md): gli avvisi sui risultati delle operazioni iniziano con l'identificazione dei KPI delle operazioni. 
+  [OPS09-BP02 Definizione dei parametri delle operazioni](ops_operations_health_design_ops_metrics.md): adotta questa best practice prima di iniziare a generare avvisi. 
+  [OPS09-BP03 Raccolta e analisi dei parametri delle operazioni](ops_operations_health_collect_analyze_ops_metrics.md): la raccolta centralizzata dei parametri delle operazioni è necessaria per creare gli avvisi. 
+  [OPS09-BP04 Definizione delle baseline per i parametri delle operazioni](ops_operations_health_ops_metric_baselines.md): le linee di base dei parametri operativi offrono la possibilità di ottimizzare gli avvisi ed evitare il cosiddetto affaticamento dagli avvisi ("alert fatigue"). 
+  [OPS09-BP05 Acquisizione dei modelli di attività previsti per le operazioni](ops_operations_health_learn_ops_usage_patterns.md): puoi migliorare la precisione dei tuoi avvisi comprendendo gli schemi di attività per gli eventi operativi. 
+  [OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri](ops_operations_health_biz_level_view_ops.md): valuta il raggiungimento dei risultati delle operazioni per assicurarti che i tuoi KPI e i tuoi parametri siano validi. 
+  [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md): ogni avviso deve avere un runbook o un playbook associato e fornire il contesto per la persona che viene avvisata. 
+  [OPS11-BP02 Esecuzione di analisi post-incidente](ops_evolve_ops_perform_rca_process.md): conduci un'analisi post-incidente dopo l'avviso per identificare le aree di miglioramento. 

 **Documenti correlati:** 
+  [AWS Deployment Pipelines Reference Architecture: Application Pipeline Architecture (Architettura di riferimento per l'implementazione di pipeline AWS: architettura della pipeline dell'applicazione)](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Getting Started with Agile / DevOps Metrics (GitLab: Introduzione ai parametri Agile/DevOps)](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Video correlati:** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter (Aggregazione e risoluzione dei problemi operativi utilizzando AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms (Integrazione degli allarmi Amazon CloudWatch in AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge (Integrazione delle origini dei dati in AWS Systems Manager OpsCenter utilizzando Amazon EventBridge)](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Esempi correlati:** 
+  [Automate remediation actions for Amazon EC2 notifications and beyond using Amazon EC2 Systems Manager Automation and AWS Health (Automatizzazione delle azioni di correzioni per le notifiche Amazon Amazon EC2 e oltre utilizzando Automazione Amazon Amazon EC2 Systems Manager e AWS Health)](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022 (Workshop sugli strumenti di gestione e governanceAWS - Operazioni)](https://mng.workshop.aws/operations-2022.html) 
+  [Ingesting, analyzing, and visualizing metrics with DevOps Monitoring Dashboard on AWS (Inserimento, analisi e visualizzazione di parametri con il dashboard di monitoraggio DevOps in AWS)](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Supporto Proactive Services - Operations KPI Workshop (Servizi proattivi di Supporto AWS - Workshop sui KPI operativi)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch Eventi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Attivazione di un avviso quando vengono rilevate delle anomalie nelle operazioni
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Attiva un avviso quando vengono rilevate delle anomalie nelle operazioni in modo da poter rispondere adeguatamente, se necessario. 

 L'analisi dei parametri delle operazioni nel corso del tempo potrebbe stabilire modelli di comportamento che puoi quantificare in modo sufficiente per definire un evento o attivare un allarme in risposta. 

 Una volta addestrata, la funzionalità [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) può essere utilizzata per inviare [allarmi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) in caso di anomalie rilevate o può fornire i valori previsti sovrapposti su un [grafico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) di dati dei parametri per un confronto continuo. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) può servire per identificare comportamenti anomali tramite la correlazione di eventi, l'analisi dei registri e l'applicazione del machine learning per analizzare la telemetria del carico di lavoro. Al [informazioni](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) ottenute vengono presentate con i dati e i consigli pertinenti. 

 **Anti-pattern comuni:** 
+  Stai applicando una patch al parco istanze. La patch è stata testata correttamente nell'ambiente di test. La patch ha esito negativo per una grande percentuale di istanze nel parco istanze. Non fai nulla. 
+  Noti che le distribuzioni sono disponibili a partire da venerdì a fine giornata. L'organizzazione ha finestre di manutenzione predefinite il martedì e il giovedì. Non fai nulla. 

 **Vantaggi dell'adozione di questa best practice:** Comprendendo i modelli di comportamento delle operazioni puoi identificare comportamenti imprevisti e intervenire, se necessario. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Bassa 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Attivazione di un avviso quando vengono rilevate anomalie nelle operazioni: invia un avviso quando vengono rilevate anomalie nelle operazioni, in modo da rispondere in modo appropriato, se necessario. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Creazione di allarmi Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Rilevare e reagire a modifiche dello stato della pipeline con Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Richiamo di funzioni Lambda utilizzando le notifiche di Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri
<a name="ops_operations_health_biz_level_view_ops"></a>

 Crea una vista a livello di business delle attività operative, per stabilire se le esigenze sono soddisfatte e per identificare gli aspetti da migliorare per raggiungere gli obiettivi di business. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 

 AWS inoltre fornisce supporto per strumenti di business intelligence e sistemi per l'analisi di registri di terze parti attraverso API e SDK del servizio AWS (ad esempio Grafana, Kibana e Logstash). 

 **Anti-pattern comuni:** 
+  La frequenza delle distribuzioni è aumentata con l'aumento del numero di team di sviluppo. Il numero previsto di distribuzioni definito è una volta alla settimana. La distribuzione viene effettuata regolarmente ogni giorno. Quando è presente un problema con il sistema di distribuzione e le distribuzioni non sono possibili, tale problema non viene rilevato per giorni. 
+  Quando precedentemente la tua azienda ha fornito supporto solo durante le ore lavorative principali dal lunedì al venerdì. Per gli incidenti hai stabilito un obiettivo relativo al tempo di risposta che corrisponde al giorno lavorativo successivo. Di recente hai iniziato a offrire una copertura di supporto 24x7 con un obiettivo di tempo di risposta di 2 ore. Il personale notturno è sovraccarico e i clienti non sono contenti. Non vi sono indicazioni in merito all'esistenza di problemi legati ai tempi di risposta agli incidenti perché i report si riferiscono a un obiettivo specificato come "giorno lavorativo successivo". 

 **Vantaggi dell'adozione di questa best practice:** Esaminando e rivedendo i KPI e i parametri, puoi capire in che modo il carico di lavoro supporta il raggiungimento dei risultati aziendali e puoi identificare i punti di miglioramento per ottenerli. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Basso 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Convalida del raggiungimento dei risultati e dell'efficacia dei KPI e dei parametri: crea una panoramica a livello aziendale delle attività operative per determinare se le esigenze sono soddisfatte e per identificare le aree che devono essere migliorate per raggiungere gli obiettivi aziendali. Convalida l'efficacia dei KPI e dei parametri e rivedili, se necessario. 
  +  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Utilizzo dei pannelli di controllo Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Che cos'è l'analisi dei log?](https://aws.amazon.com/log-analytics/) 

# OPS 10 In che modo gestisci gli eventi del carico di lavoro e delle operazioni?
<a name="ops-10"></a>

 Prepara e convalida le procedure in risposta agli eventi per ridurre al minimo il loro impatto sul tuo carico di lavoro. 

**Topics**
+ [OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Definizione di un processo per ogni avviso](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definizione dei percorsi di escalation](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Definizione di un piano di comunicazione con i clienti per le interruzioni](ops_event_response_push_notify.md)
+ [OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automazione delle risposte agli eventi](ops_event_response_auto_event_response.md)

# OPS10-BP01 Utilizzo di un processo per la gestione di eventi, incidenti e problemi
<a name="ops_event_response_event_incident_problem_process"></a>

L'organizzazione dispone di processi per gestire eventi, incidenti e problemi. *Gli eventi* sono costituiti da quanto accade nel carico di lavoro che non necessita di un intervento umano. *Gli incidenti* sono invece eventi che richiedono un intervento. *I problemi* sono eventi ricorrenti che richiedono un intervento o che non possono essere risolti. È necessario disporre di processi per ridurre l'impatto degli eventi sull'azienda e accertarsi di reagire in modo tempestivo e appropriato.

Quando nel carico di lavoro si verificano problemi o incidenti, è necessario utilizzare i processi per gestirli. In che modo puoi comunicare lo stato dell'evento alle parti coinvolte? Chi supervisiona la gestione delle risposte? Quali sono gli strumenti da utilizzare per ridurre l'impatto dell'evento? Questi sono solo alcuni esempi delle domande a cui devi rispondere per creare un processo di risposta affidabile. 

I processi devono essere documentati in una posizione centralizzata, nonché essere disponibili a chiunque sia coinvolto nel carico di lavoro. Se non è presente un wiki o un archivio di documenti centralizzato, è possibile utilizzare un repository per il controllo delle versioni. In questo modo sarà possibile mantenere aggiornati i piani in modo conforme all'evoluzione dei processi. 

I problemi possono essere automatizzati. Il tempo richiesto per la gestione di questo tipo di eventi potrebbe essere altrimenti destinato all'innovazione. Comincia a creare un processo ripetibile per ridurre il più possibile l'impatto del problema. Gradualmente cerca di concentrarti sull'automazione della riduzione o risoluzione del problema sottostante. In questo modo il tempo risparmiato potrà essere dedicato a migliorare il carico di lavoro. 

**Risultato desiderato:** l'organizzazione dispone di un processo per gestire eventi, incidenti e problemi. Questi processi sono documentati e archiviati in una posizione centralizzata e vengono aggiornati in base alle modifiche apportate. 

**Anti-pattern comuni:** 
+  Un incidente si verifica durante il fine settimana e il tecnico di turno non sa cosa fare. 
+  Un cliente invia un messaggio e-mail indicando che l'applicazione non è disponibile. Riavvii il server per correggere il problema. Questo incidente si verifica di frequente. 
+  Si verifica un incidente e più team si mettono a lavorare in modo indipendente per risolvere il problema. 
+  Le implementazioni vengono eseguite nel carico di lavoro senza essere documentate. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Nel carico di lavoro è presente un itinerario di audit degli eventi. 
+  Viene ridotto il tempo necessario per il ripristino in seguito a un incidente. 
+  I membri dei team riescono a risolvere incidenti e problemi in modo coerente. 
+  Durante l'analisi di un incidente, l'approccio è condiviso e più consolidato. 

 **Livello di rischio associato se questa best practice non fosse adottata:** alto 

## Guida all'implementazione
<a name="implementation-guidance"></a>

L'implementazione di questa best practice prevede la registrazione degli eventi dei carichi di lavoro. Per la gestione di incidenti e problemi, è necessario ricorrere ai processi. I processi sono documentati, condivisi e aggiornati con frequenza. I problemi vengono identificati, classificati in base alla priorità e corretti. 

 **Esempio del cliente** 

AnyCompany Retail ha dedicato una parte del proprio wiki interno ai processi destinati alla gestione di eventi, incidenti e problemi. Tutti gli eventi vengono inviati ad [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). I problemi vengono classificati come OpsItems (elementi di lavoro operativi) in [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) e classificati in base alla loro priorità al fine della loro risoluzione, in modo da ridurre eventuali attività indifferenziate. Quando i processi subiscono variazioni, vengono aggiornati nel wiki interno. Viene utilizzato [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) per gestire gli incidenti e coordinare le attività di riduzione dell'impatto. 

## Passaggi dell'implementazione
<a name="implementation-steps"></a>

1.  Eventi 
   +  Tieni traccia degli eventi che si verificano nel carico di lavoro, anche se non è richiesto alcun intervento umano. 
   +  Collabora con le parti coinvolte a livello di piano di lavoro per redigere un elenco di eventi di cui tenere traccia, ad esempio implementazioni completate o applicazioni di patch riuscite. 
   +  Puoi utilizzare servizi come [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) oppure [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) per generare eventi personalizzati per il monitoraggio. 

1.  Incidenti 
   +  Per prima cosa, definisci il piano di comunicazione per gli incidenti. Quali parti coinvolte devono essere informate? In che modo le tieni costantemente aggiornate? Chi supervisiona il coordinamento di tutte queste attività? È consigliabile creare un canale di chat per le comunicazioni e il coordinamento. 
   +  Definisci un percorso di escalation per i team di supporto del carico di lavoro, soprattutto se il team non dispone di turni di rotazione della disponibilità. A seconda del livello di supporto, è possibile segnalare un caso anche mediante il Supporto. 
   +  Crea un playbook per l'analisi dell'incidente. È necessario includere il piano di comunicazione e, in dettaglio, i passaggi del processo di indagine. Includi il controllo del [Dashboard AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) nel processo di indagine. 
   +  Documenta il piano di risposta agli incidenti. Comunica il piano di gestione degli incidenti in modo che i clienti esterni siano consapevoli delle regole da seguire e dei comportamenti richiesti previsti. Fornisci formazione ai membri dei team su come utilizzare tale piano di gestione. 
   +  I clienti possono utilizzare [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) per configurare e gestire il piano di risposta agli incidenti. 
   +  I clienti del supporto Enterprise possono richiedere di seguire il [workshop relativo alla gestione degli incidenti](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) al proprio Technical Account Manager (TAM). Questo workshop guidato consente di verificare il piano di risposta agli incidenti esistente e ti aiuta a individuare eventuali aree da migliorare. 

1.  Problemi 
   +  I problemi devono essere identificati e registrati nel sistema ITSM in uso. 
   +  Identifica tutti i problemi noti ed eseguine una catalogazione in base all'impegno necessario per correggerli e al relativo impatto sul carico di lavoro.   
![\[Matrice delle priorità delle operazioni per la catalogazione dei problemi.\]](http://docs.aws.amazon.com/it_it/wellarchitected/2023-04-10/framework/images/impact-effort-chart.png)
   +  Per prima cosa risolvi i problemi caratterizzati dall'impatto più alto e dal minore impegno. Dopodiché, passa alla risoluzione dei problemi che rientrano nel quadrante basso impatto/basso impegno. 
   +  Puoi utilizzare [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) per identificare i problemi, associarvi runbook e tenerne traccia. 

**Livello di impegno per il piano di implementazione:** medio. Devi disporre sia di un processo che degli strumenti per implementare questa best practice. Documenta i processi e rendili disponibili a chiunque sia coinvolto nel carico di lavoro. Aggiornali con frequenza. È disponibile un processo per la gestione e la migrazione o la risoluzione dei problemi. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md): i problemi noti necessitano di un runbook associato in modo tale che le attività di attenuazione dell'impatto siano coerenti.
+  [OPS07-BP04 Utilizzo dei playbook per analizzare i problemi](ops_ready_to_support_use_playbooks.md): gli incidenti devono essere analizzati con il supporto di playbook. 
+  [OPS11-BP02 Esecuzione di analisi post-incidente](ops_evolve_ops_perform_rca_process.md): esegui sempre un post-mortem dopo aver eseguito un ripristino in seguito a un incidente. 

 **Documenti correlati:** 
+  [Atlassian - Incident management in the age of DevOps (Atlassian - Gestione degli incidenti nell'era di DevOps)](https://www.atlassian.com/incident-management/devops) 
+  [AWS Security Incident Response Guide (Guida alle risposte agli incidenti di sicurezza di AWS)](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Incident Management in the Age of DevOps and SRE (Gestione degli incidenti nell'era di DevOps e SRE)](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management? (PagerDuty - Che cos'è la gestione degli incidenti?)](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video correlati:** 
+  [AWS re:Invent 2020: Incident management in a distributed organization (Gestione degli incidenti in un'organizzazione distribuita)](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Building next-gen applications with event-driven architectures (Sviluppo di applicazioni di nuova generazione con architetture basate su eventi)](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Supports You \$1 Exploring the Incident Management Tabletop Exercise (Esplorazione degli esercizi di simulazione relativi alla gestione degli incidenti)](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [Strumento di gestione degli incidenti AWS Systems Manager - AWS Virtual Workshops (Workshop virtuali AWS)](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next ft. Incident Manager \$1 AWS Events (Novità di AWS e Incident Manager \$1 Eventi AWS)](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Esempi correlati:** 
+  [AWS Management and Governance Tools Workshop - OpsCenter (Workshop sugli strumenti di gestione e governance AWS - OpsCenter)](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [AWS Proactive Services – Incident Management Workshop (Servizi AWS proattivi – Workshop relativo alla gestione degli incidenti)](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Building an event-driven application with Amazon EventBridge (Sviluppo di un'applicazione basata su eventi con Amazon EventBridge)](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Building event-driven architectures on AWS (Sviluppo di architetture basate su eventi in AWS)](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Servizi correlati:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [Dashboard AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Strumento di gestione degli incidenti AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Definizione di un processo per ogni avviso
<a name="ops_event_response_process_per_alert"></a>

 Predisponi una risposta specifica (runbook o playbook), con un proprietario espressamente identificato, per ogni evento per cui viene generato un avviso. Questo consente di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti. 

 **Anti-pattern comuni:** 
+  Il sistema di monitoraggio presenta un flusso di connessioni approvate insieme ad altri messaggi. Il volume di messaggi è così grande che vengono ignorati dei messaggi di errore periodici che richiedono il tuo intervento. 
+  Ricevi un avviso che informa che il sito Web è inattivo. Non esiste un processo definito per quando ciò si verifica. Sei costretto ad adottare un approccio ad hoc per diagnosticare e risolvere il problema. Lo sviluppo di questo processo durante l'esecuzione prolunga il tempo di ripristino. 

 **Vantaggi dell'adozione di questa best practice:** Generando avvisi solo quando è necessaria un'operazione, eviti che gli avvisi di basso valore nascondano quelli più importanti. Creando un processo per ogni avviso che richiede un'azione, puoi attivare una risposta coerente e immediata agli eventi nel tuo ambiente. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Alta 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Un processo per ogni avviso: a ogni evento per cui viene generato un avviso deve corrispondere una risposta specifica (runbook o playbook) con un responsabile specificatamente identificato (ad esempio, una persona, un team o un ruolo) a cui spetta il compito di completare correttamente l'azione. L'esecuzione della risposta può essere automatizzata o condotta da un altro team, ma il proprietario è tenuto ad assicurarsi che il processo produca i risultati previsti. Questi processi consentono di rispondere agli eventi operativi in modo rapido ed efficace, evitando che gli eventi che richiedono un'azione vengano oscurati da notifiche meno importanti. Ad esempio, è possibile applicare l'auto scaling per ridimensionare un front-end Web, ma il team operativo può essere tenuto a garantire che le regole e i limiti di auto scaling siano appropriati per le esigenze del carico di lavoro. 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Funzionalità di Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video correlati:** 
+  [Creazione di un piano di monitoraggio](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Definizione della priorità degli eventi operativi in base agli effetti sul business
<a name="ops_event_response_prioritize_events"></a>

 Quando più eventi richiedono un intervento, assicurati che quelli più significativi per il business vengano affrontati per primi. Sono esempi di effetti il decesso o l'infortunio, le perdite finanziarie o i danni alla reputazione o alla fiducia. 

 **Anti-pattern comuni:** 
+  Ricevi una richiesta di supporto per aggiungere una configurazione della stampante per un utente. Durante la risoluzione del problema, ricevi una richiesta di supporto per sito di vendita al dettaglio non disponibile. Dopo aver completato la configurazione della stampante per l'utente, inizi a lavorare sul problema del sito Web. 
+  Ti viene segnalato che il sito Web di vendita al dettaglio e il sistema delle buste paga non sono disponibili. Non sai quale deve avere la priorità. 

 **Vantaggi dell'adozione di questa best practice:** Dare priorità alle risposte agli incidenti che determinano il maggiore impatto sull'azienda consente di gestire tale impatto. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Definizione della priorità degli eventi operativi in base agli effetti sul business: assicurati che quando più eventi richiedono un intervento, quelli più significativi per l'azienda vengano affrontati per primi. Sono esempi di effetti il decesso o l'infortunio, le perdite finanziarie, le violazioni alle normative o i danni alla reputazione o alla fiducia. 

# OPS10-BP04 Definizione dei percorsi di escalation
<a name="ops_event_response_define_escalation_paths"></a>

 Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le procedure di escalation. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi. 

 Stabilisci in quali circostanze serve una decisione umana prima che venga intrapresa un'azione. Collabora con i responsabili delle decisioni affinché questa decisione venga presa in anticipo e l'operazione sia preapprovata, in modo che la MTTR non si prolunghi in attesa di una risposta. 

 **Anti-pattern comuni:** 
+  Il sito di vendita al dettaglio non è disponibile. Il runbook per il ripristino del sito non è chiaramente comprensibile. Inizi a chiamare i colleghi sperando che qualcuno possa aiutarti. 
+  Ricevi un caso di supporto per un'applicazione irraggiungibile. Non disponi delle autorizzazioni per amministrare il sistema. Non sai a chi compete questo compito. Tenti di contattare il proprietario del sistema che ha aperto il caso ma non ricevi risposta. Né tu né i tuoi colleghi sapete chi bisogna contattare per il sistema. 

 **Vantaggi dell'adozione di questa best practice:** Definendo le escalation e i trigger e le procedure per l'escalation, abiliti l'aggiunta sistematica di risorse a un incidente con una rapidità adeguata all'impatto. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medium 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Definizione di percorsi di escalation: definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le relative procedure. Ad esempio, l'escalation di un problema dai tecnici del supporto ai tecnici del supporto senior quando i runbook non riescono a risolvere il problema o quando è trascorso un determinato periodo di tempo. Un altro esempio di percorso di escalation appropriato è l'inoltro dai tecnici del supporto senior al team di sviluppo per un carico di lavoro quando i playbook non sono in grado di identificare un percorso di correzione o quando è trascorso un determinato periodo di tempo. In particolare, identifica i proprietari per ogni azione per assicurare risposte rapide ed efficaci agli eventi operativi. Le escalation possono includere terze parti, ad esempio un provider di connettività di rete o un produttore di software. Possono anche includere i responsabili decisionali autorizzati identificati per i sistemi interessati. 

# OPS10-BP05 Definizione di un piano di comunicazione con i clienti per le interruzioni
<a name="ops_event_response_push_notify"></a>

 Definisci e testa un piano di comunicazione affidabile per le interruzioni del sistema in modo da tenere informati clienti e stakeholder durante le interruzioni. Comunica direttamente con gli utenti sia quando i servizi che usano subiscono un'interruzione sia quando tornano alla normalità. 

 **Risultato desiderato:** 
+  Presenza di un piano di comunicazione per situazioni che includono dalla manutenzione pianificata a errori imprevisti di grande entità, inclusa l'attivazione di piani di ripristino di emergenza. 
+  Disponibilità di informazioni chiare e trasparenti sui problemi relativi ai sistemi, in modo che i clienti non siano costretti a congetture sulle prestazioni dei propri sistemi. 
+  Uso di pagine di stato e messaggi di errore personalizzati per ridurre i picchi nelle richieste all'help desk e tenere informati gli utenti. 
+  Esecuzione regolare di test del piano di comunicazione per verificarne il funzionamento nel modo previsto quando si verifica realmente un'interruzione. 

 **Anti-pattern comuni:** 
+ Si verifica un'interruzione del carico di lavoro, ma non è disponibile un piano di comunicazione. Gli utenti sovraccaricano di richieste il sistema di gestione dei ticket di assistenza perché non hanno informazioni sull'interruzione.
+ Durante un'interruzione, invii una notifica tramite e-mail agli utenti. Il messaggio non contiene informazioni sulle tempistiche per il ripristino del servizio e gli utenti non possono pianificare le proprie attività durante l'interruzione.
+ Esiste un piano di comunicazione per le interruzioni, ma non è mai stato testato. Si verifica un'interruzione e il piano di comunicazione non riesce perché non include un passaggio critico che avrebbe potuto essere identificato tramite test.
+  Durante un'interruzione, invii una notifica agli utenti con troppi dettagli tecnici e informazioni rispetto a quanto indicato nell'accordo di non divulgazione AWS. 

 **Vantaggi dell'adozione di questa best practice:** 
+  Il mantenimento della comunicazione durante le interruzioni fornisce ai clienti la visibilità sullo stato dei problemi e sul tempo stimato per la risoluzione. 
+  Lo sviluppo di un piano di comunicazione ben definito permette di verificare che clienti e utenti finali vengano correttamente informati in modo da poter adottare i passaggi aggiuntivi necessari per attenuare l'impatto delle interruzioni. 
+  Con comunicazioni appropriate e una maggiore consapevolezza delle interruzioni pianificate e impreviste, puoi migliorare la soddisfazione dei clienti, limitare le reazioni involontarie e favorire la fidelizzazione dei clienti. 
+  Comunicazioni tempestive e trasparenti sulle interruzioni del sistema creano la fiducia necessaria per mantenere le relazioni con i clienti. 
+  Una strategia di comunicazione collaudata durante un'interruzione o una crisi riduce congetture e dicerie che potrebbero ostacolare la tua capacità di ripristinare il sistema. 

 **Livello di rischio associato alla mancata adozione di questa best practice:** medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>

 I piani di comunicazione che tengono informati i clienti durante le interruzioni sono olistici e includono più interfacce, tra cui le pagine di errore destinate ai clienti, i messaggi di errore delle API personalizzati, i banner sullo stato del sistema e le pagine di stato sull'integrità. Se il sistema include utenti registrati, puoi comunicare attraverso canali di messaggistica come e-mail, SMS o notifiche push per inviare messaggi con contenuti personalizzati ai clienti. 

 **Strumenti di comunicazione con i clienti** 

 Come prima linea di difesa, le applicazioni Web e per dispositivi mobili devono fornire messaggi di errore intuitivi e informativi durante un'interruzione ed essere in grado di reindirizzare il traffico a una pagina di stato. [Amazon CloudFront](https://aws.amazon.com/cloudfront/) è una rete di distribuzione di contenuti (CDN) completamente gestita che include funzionalità per definire e distribuire contenuti personalizzati sugli errori. Le pagine di errore personalizzate in CloudFront sono un ottimo tipo iniziale di messaggistica ai clienti per le interruzioni a livello di componente. CloudFront può anche semplificare la gestione e l'attivazione di una pagina di stato per intercettare tutte le richieste durante interruzioni pianificate o impreviste. 

 Messaggi di errore personalizzati sulle API possono aiutare a identificare e ridurre l'impatto quando le interruzioni sono separate in servizi dedicati. [Amazon API Gateway](https://aws.amazon.com/api-gateway/) permette di configurare risposte personalizzate per le REST API. In questo modo, puoi fornire messaggi chiari e significativi agli utenti di API quando API Gateway non è in grado di raggiungere i servizi back-end. Puoi usare messaggi personalizzati anche per supportare contenuti e notifiche dei banner sulle interruzioni quando una determinata funzionalità del sistema risulta danneggiata a causa di interruzioni a livello di servizio. 

 La messaggistica diretta è il tipo più personalizzato di messaggistica per i clienti. [Amazon Pinpoint](https://aws.amazon.com/pinpoint/) è un servizio gestito per comunicazioni multicanale scalabili. Amazon Pinpoint ti permette di creare campagne per la trasmissione di messaggi a tutta la clientela interessata tramite SMS, e-mail, messaggi vocali, notifiche push o canali personalizzati da te definiti. Quando gestisci la messaggistica con Amazon Pinpoint, le campagne di messaggi sono ben definite, verificabili e possono essere applicate in modo intelligente ai segmenti di clientela desiderati. Una volta create, le campagne possono essere pianificate o attivate da eventi e testate facilmente. 

 **Esempio del cliente** 

 Quando il carico di lavoro risulta danneggiato, AnyCompany Retail invia una notifica tramite e-mail ai propri utenti. L'e-mail specifica le funzionalità aziendali interessate e fornisce una stima realistica delle tempistiche per il ripristino del servizio. Inoltre, l'azienda ha una pagina di stato che mostra informazioni in tempo reali sull'integrità del carico di lavoro. Il piano di comunicazione viene testato in un ambiente di sviluppo due volte all'anno per convalidarne l'efficienza. 

 **Passaggi dell'implementazione** 

1.  Determina i canali di comunicazione per la strategia di messaggistica. Tieni conto degli aspetti architetturali dell'applicazione e determina la migliore strategia per fornire feedback ai clienti. Possono essere incluse una o più delle strategie definite per le linee guida, tra cui pagine di errore e di stato, risposte personalizzate agli errori delle API o messaggistica diretta. 

1.  Progetta pagine di stato per l'applicazione. Se hai deciso che le pagine personalizzate di errore o di stato sono l'opzione più adatta per i clienti, dovrai progettarne il contenuto e la messaggistica. Le pagine di errore spiegano agli utenti perché un'applicazione non è disponibile, quando potrebbe tornare disponibile e che cosa possono fare gli utenti nel frattempo. Se l'applicazione usa Amazon CloudFront, puoi distribuire [risposte personalizzate agli errori](https://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/GeneratingCustomErrorResponses.html) o usare Lambda in posizioni edge per [tradurre gli errori](https://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/lambda-examples.html#lambda-examples-update-error-status-examples) e riscrivere il contenuto delle pagine. CloudFront permette anche di scambiare le destinazioni dal contenuto dell'applicazione a un'origine di contenuto [Amazon S3](https://aws.amazon.com/s3/) statica che include la pagina di stato sulla manutenzione o sull'interruzione. 

1.  Progetta il set corretto di stati di errore delle API per il servizio. I messaggi di errore generati da API Gateway quando non riesce a raggiungere i servizi back-end, nonché le eccezioni a livello di servizio, potrebbero contenere messaggi non intuitivi e inadatti per la visualizzazione agli utenti finali. Anziché apportare modifiche di codice ai servizi back-end, puoi configurare [risposte personalizzate agli errori](https://docs.aws.amazon.com/apigateway/latest/developerguide/api-gateway-gatewayResponse-definition.html) in API Gateway per mappare codici di risposta HTTP a messaggi di errore delle API selezionati. 

1.  Progetta la messaggistica da un punto di vista commerciale in modo che sia pertinente per gli utenti finali del sistema e non contenga dettagli tecnici. Esamina i destinatari e allinea la messaggistica di conseguenza. Ad esempio, potresti indirizzare gli utenti interni a una soluzione alternativa o a un processo manuale che utilizza un sistema alternativo. Potresti richiedere agli utenti esterni di attendere il ripristino del sistema o di iscriversi agli aggiornamenti per ricevere una notifica quando il sistema viene ripristinato. Definisci una messaggistica approvata per più scenari, tra cui interruzioni impreviste, manutenzione pianificata ed errori parziali del sistema in cui una funzionalità specifica potrebbe essere danneggiata o non disponibile. 

1.  Crea modelli per la messaggistica ai clienti e automatizzane la gestione. Dopo aver definito il contenuto dei messaggi, puoi usare [Amazon Pinpoint](https://docs.aws.amazon.com/pinpoint/latest/developerguide/welcome.html) o altri strumenti per automatizzare la campagna di messaggistica. Con Amazon Pinpoint puoi creare segmenti di clientela di destinazione per utenti interessati specifici e trasformare i messaggi in modelli. Consulta il [tutorial su Amazon Pinpoint](https://docs.aws.amazon.com/pinpoint/latest/developerguide/tutorials.html) per informazioni su come configurare una campagna di messaggistica. 

1.  Evita l'accoppiamento stretto di funzionalità di messaggistica con il sistema rivolto ai clienti. La strategia di messaggistica non deve avere rigide dipendenze dai servizi e dagli archivi di dati del sistema, in modo da permettere l'invio corretto di messaggi quando riscontri interruzioni. Valuta se introdurre la possibilità di inviare messaggi da più di [una zona di disponibilità o regione](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_fault_isolation_multiaz_region_system.html) ai fini della disponibilità della messaggistica. Se usi servizi AWS per inviare messaggi, utilizza operazioni del piano dati anziché [operazioni del piano di controllo (control-plane)](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_withstand_component_failures_avoid_control_plane.html) per richiamare la messaggistica. 

 **Livello di impegno per il piano di implementazione:** elevato Lo sviluppo di un piano di comunicazione e del suo meccanismo di invio può richiedere un impegno significativo. 

## Risorse
<a name="resources"></a>

 **Best practice correlate:** 
+  [OPS07-BP03 Utilizzo di runbook per eseguire le procedure](ops_ready_to_support_use_runbooks.md) – Al piano di comunicazione deve essere associato un runbook, in modo che il personale sappia come rispondere. 
+  [OPS11-BP02 Esecuzione di analisi post-incidente](ops_evolve_ops_perform_rca_process.md) – Dopo un'interruzione, esegui un'analisi post-incidente per evitarne altre. 

 **Documenti correlati:** 
+ [ Modelli di gestione degli errori in Amazon API Gateway e AWS Lambda](https://aws.amazon.com/blogs/compute/error-handling-patterns-in-amazon-api-gateway-and-aws-lambda/)
+ [ Risposte di Amazon API Gateway ](https://docs.aws.amazon.com/apigateway/latest/developerguide/api-gateway-gatewayResponse-definition.html#supported-gateway-response-types)

 **Esempi correlati:** 
+ [ Dashboard AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/)
+ [ Riepilogo dell'evento di assistenza AWS nella regione della Virginia settentrionale (US-EAST-1) ](https://aws.amazon.com/message/12721/)

 **Servizi correlati:** 
+ [Supporto AWS](https://aws.amazon.com/premiumsupport/)
+ [ Accordo cliente AWS](https://aws.amazon.com/agreement/)
+ [ Amazon CloudFront ](https://aws.amazon.com/cloudfront/)
+ [ Amazon API Gateway ](https://aws.amazon.com/api-gateway/)
+ [ Amazon Pinpoint ](https://aws.amazon.com/pinpoint/)
+ [ Amazon S3 ](https://aws.amazon.com/s3/)

# OPS10-BP06 Comunicazione dello stato tramite pannelli di controllo
<a name="ops_event_response_dashboards"></a>

 Fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici interni, la dirigenza e i clienti, per comunicare lo stato operativo corrente del business e fornire i parametri desiderati. 

 Puoi creare pannelli di controllo utilizzando [Amazon CloudWatch Dashboards](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) sulle home page personalizzabili nella console di CloudWatch. Utilizzando servizi di business intelligence come [Quick](https://aws.amazon.com/quicksight/) è possibile creare e pubblicare pannelli di controllo interattivi sullo stato del carico di lavoro e delle operazioni (ad esempio tassi di ordinazione, utenti connessi e tempi di transazione). Crea pannelli di controllo che mostrino visualizzazioni dei parametri a livello di sistema e a livello di azienda. 

 **Anti-pattern comuni:** 
+  Su richiesta, esegui un report sull'utilizzo corrente dell'applicazione per la gestione. 
+  Durante un incidente, vieni contattato ogni 20 minuti da un responsabile di sistema preoccupato, che desidera sapere se il problema è stato risolto. 

 **Vantaggi dell'adozione di questa best practice:** Creando pannelli di controllo, abiliti l'accesso self-service alle informazioni consentendo ai clienti di informarsi autonomamente e decidere se devono intervenire. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Medio 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Comunicazione dello stato tramite pannelli di controllo: fornisci pannelli di controllo personalizzati in base ai destinatari, ad esempio i team tecnici, la leadership e i clienti, per comunicare l'attuale stato operativo del business e fornire i parametri rilevanti. Offrire un'opzione self-service per le informazioni di stato riduce le interruzioni derivanti dalla gestione delle richieste di stato da parte dei team operativi. Ne sono esempi i pannelli di controllo di Amazon CloudWatch e Dashboard AWS Health. 
  +  [I pannelli di controllo di CloudWatch creano e utilizzano visualizzazioni dei parametri personalizzate](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [I pannelli di controllo di CloudWatch creano e utilizzano visualizzazioni dei parametri personalizzate](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Automazione delle risposte agli eventi
<a name="ops_event_response_auto_event_response"></a>

 Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e assicurare risposte rapide e coerenti. 

 I modi per automatizzare le azioni di runbook o playbook su AWS sono molteplici. Per rispondere a un evento dovuto a una modifica dello stato nelle risorse AWS o a eventi personalizzati, è necessario creare [regole CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) per attivare risposte tramite destinazioni CloudWatch (ad esempio funzioni Lambda, argomenti Amazon Simple Notification Service (Amazon SNS), attività Amazon ECS e AWS Systems Manager Automation). 

 Per rispondere a un determinato parametro che supera una soglia per una certa risorsa (ad es. il tempo di attesa), è consigliabile creare [avvisi CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) per eseguire una o più azioni utilizzando azioni Amazon EC2 e azioni Auto Scaling o per inviare una notifica a un argomento Amazon SNS. Se è necessario eseguire azioni personalizzate in risposta a un avviso, richiama Lambda con una notifica Amazon SNS. Utilizza Amazon SNS per pubblicare notifiche di eventi e messaggi di escalation, in modo tale che le persone ne siano informate. 

 AWS supporta, inoltre, sistemi di terze parti attraverso API e SDK del servizio AWS. Esistono numerosi strumenti forniti da partner AWS e da terze parti che consentono di monitorare e inviare notifiche e risposte. Alcuni di questi strumenti sono New Relic, Splunk, Loggly, SumoLogic e Datadog. 

 Rendi disponibili le procedure manuali cruciali in modo tale che possano essere utilizzate quando le procedure automatiche non riescono. 

 **Anti-pattern comuni:** 
+  Uno sviluppatore controlla il proprio codice. Questo evento avrebbe potuto essere utilizzato per avviare una compilazione e quindi eseguire il test, ma non accade nulla. 
+  L'applicazione registra un errore specifico prima di smettere di funzionare. La procedura per riavviare l'applicazione è ben nota e può essere creata con script. Puoi utilizzare l'evento di log per richiamare uno script e riavviare l'applicazione. Ricevi, invece, una chiamata alle 3 di domenica mattina, quando si verifica l'errore, perché sei reperibile come risorsa responsabile della correzione del sistema. 

 **Vantaggi dell'adozione di questa best practice:** Utilizzando le risposte automatizzate agli eventi, riduci il tempo necessario per rispondere e limiti l'introduzione di errori da attività manuali. 

 **Livello di rischio associato se questa best practice non fosse adottata:** Bassa 

## Guida all'implementazione
<a name="implementation-guidance"></a>
+  Automazione delle risposte agli eventi: automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e per assicurare risposte rapide e coerenti. 
  +  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creazione di una regola di CloudWatch Events che si attiva al verificarsi di un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Creazione di una regola di CloudWatch Events che si attiva con una chiamata API AWS tramite AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Esempi di eventi CloudWatch Events dai servizi supportati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Risorse
<a name="resources"></a>

 **Documenti correlati:** 
+  [Funzionalità di Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Esempi di eventi CloudWatch Events dai servizi supportati](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Creazione di una regola di CloudWatch Events che si attiva con una chiamata API AWS tramite AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Creazione di una regola di CloudWatch Events che si attiva al verificarsi di un evento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [Che cos'è Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video correlati:** 
+  [Creazione di un piano di monitoraggio](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Esempi correlati:**