Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Appendice A ‒ Tipi di obiettivi per l'ingegneria del caos
Le seguenti descrizioni dei tipi di obiettivi includono esempi reali di come Amazon e altre organizzazioni hanno progettato obiettivi per l'ingegneria del caos.
Obiettivi di architettura resiliente
Uno dei fattori iniziali per l'adozione dell'ingegneria del caos è l'identificazione e la riduzione dei singoli punti di errore (SPOF) tra sistemi e infrastrutture. Gli obiettivi sono fissati per convalidare la resilienza dei sistemi e delle architetture critiche, in particolare per nuovi servizi o applicazioni.
Gli obiettivi dell'architettura resiliente prevedono l'esecuzione di esperimenti di caos che simulano i guasti nelle dipendenze dei servizi. Gli esperimenti confermano se i timeout, i nuovi tentativi, il comportamento di memorizzazione nella cache e le configurazioni degli interruttori automatici funzionano correttamente. Questi esperimenti aiutano a scoprire i problemi da risolvere, prevenendo incidenti che possono avere ripercussioni sui clienti. Per un esempio, consulta Creazione di servizi resilienti in Prime Video con Chaos Engineering
Obiettivi di ripristino dei servizi
Gli obiettivi di ripristino dei servizi si concentrano sul miglioramento della capacità di ripristino in seguito a interruzioni operative o guasti dell'infrastruttura. Ad esempio, l'organizzazione potrebbe mirare a raggiungere un obiettivo RTO (Recovery Time Objective) specifico per i servizi principali in caso di interruzione. I team possono progettare esperimenti di caos per convalidare e ottimizzare le strategie di evacuazione, i meccanismi di failover e i processi di ripristino automatizzati. Le ottimizzazioni riducono in ultima analisi il tempo necessario per il ripristino del servizio. Per un esempio, vedi AWS Lambda: under-the-hood Resilience
Obiettivi relativi all'esperienza utente
Mantenere un'esperienza utente coerente e affidabile è fondamentale, specialmente durante i periodi di traffico intenso o gli eventi critici. In questi casi, stabilite obiettivi incentrati sul raggiungimento di obiettivi specifici a livello di servizio (). SLOs Questo approccio incentrato sul cliente garantisce che gli sforzi di resilienza siano direttamente allineati all'offerta di un'esperienza utente superiore, anche in caso di guasti o condizioni degradate. Per un esempio, consulta Engineering Resilience: Lessons from Chaos Engineering Journey di Amazon Search
Obiettivi basati sulle metriche
È possibile stabilire obiettivi basati su metriche quantitative, ad esempio un punteggio di resilienza calcolato assegnando punti a servizi che adottano best practice comprovate in materia di resilienza. È quindi possibile utilizzare particolari esperimenti di caos per determinare il punteggio di resilienza. Questo punteggio può servire come misura per i team per monitorare i progressi compiuti nella mitigazione dei rischi di disponibilità noti e nell'implementazione delle misure di resilienza consigliate. Tuttavia, è fondamentale interpretare tali punteggi con cautela ed evitare di enfatizzare eccessivamente una singola metrica a scapito di obiettivi di resilienza più ampi. Per un esempio, vedi Comprendere i punteggi di resilienza.
Obiettivi di conformità normativa
Il settore dei servizi finanziari si è dimostrato all'avanguardia nell'adozione dell'ingegneria del caos, guidato principalmente da severi requisiti normativi che impongono solide capacità di resilienza. Le normative richiederanno che gli istituti finanziari identifichino, testino e risolvano in modo proattivo le vulnerabilità nei loro sistemi e processi critici. Queste normative includono quanto segue:
-
Il documento interagenziale sulle buone pratiche per rafforzare la resilienza operativa pubblicato dalle agenzie federali statunitensi
-
Le linee guida della Banca centrale europea sulla resilienza operativa
-
La proposta della Commissione europea per una legge sulla resilienza operativa digitale (DORA)
Se la tua organizzazione è un istituto finanziario, rispetta queste normative fissando obiettivi espliciti per dimostrare la resilienza operativa attraverso strategie complete di test e convalida. Ad esempio, vedi London Stock Exchange Group utilizza l'ingegneria del caos per migliorare