Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Principi fondamentali per più regioni 1: Comprensione dei requisiti
Come accennato in precedenza, l'elevata disponibilità e la continuità delle operazioni sono ragioni comuni per perseguire architetture multiregionali. Le metriche di disponibilità misurano la percentuale di tempo in cui un carico di lavoro è disponibile per l'uso in un periodo definito, mentre le metriche di continuità delle operazioni misurano il tempo di ripristino per eventi su larga scala, e in genere di durata maggiore.
La misurazione della disponibilità è un processo quasi continuo. Le misurazioni specifiche possono variare, ma in genere si fondono attorno a una metrica di disponibilità target, spesso denominata nove (ad esempio una disponibilità del 99,99 percento). Con gli obiettivi di disponibilità, un'unica soluzione non va bene per tutti. È necessario stabilire obiettivi di disponibilità a livello di carico di lavoro e separare i componenti non critici dai componenti critici, anziché applicare un unico obiettivo a tutti i carichi di lavoro.
Per la continuità delle operazioni, in genere vengono utilizzate le seguenti point-in-time misurazioni:
-
Recovery Time Objective (RTO): RTO è il ritardo massimo accettabile tra l'interruzione del servizio e il ripristino del servizio. Questo valore determina una durata accettabile per la quale il servizio è compromesso.
-
Recovery Point Objective (RPO): l'RPO è il periodo di tempo massimo accettabile dall'ultimo punto di ripristino dei dati. Ciò determina quella che viene considerata una perdita di dati accettabile tra l'ultimo punto di ripristino e un'interruzione del servizio.
Analogamente alla definizione degli obiettivi di disponibilità, anche RTO e RPO dovrebbero essere definiti a livello di carico di lavoro. Una continuità operativa più aggressiva o un'elevata disponibilità richiedono maggiori investimenti. Detto questo, non tutte le applicazioni possono richiedere o richiedono lo stesso livello di resilienza. Allineare i titolari di aziende e sistemi IT per valutare la criticità delle applicazioni in base all'impatto sul business e poi suddividerle di conseguenza su più livelli può contribuire a fornire un punto di partenza. Le tabelle seguenti forniscono esempi di suddivisione in più livelli.
Questa tabella mostra un esempio di resilienza su più livelli per gli accordi sui livelli di servizio (). SLAs
Livello di resilienza | SLA di disponibilità | Tempo di inattività accettabile/anno |
---|---|---|
Platino |
99,99% |
52,60 minuti |
Oro |
99,90% |
8,77 ore |
Argento |
99,5% |
1,83 giorni |
La tabella seguente mostra un esempio di resilienza su più livelli per RTO e RPO.
Livello di resilienza | RTO massimo | RPO massimo | Criteri | Costo |
---|---|---|---|---|
Platino |
15 minuti |
5 minuti |
Carichi di lavoro mission-critical |
$$$ |
Oro |
15 minuti — 6 ore |
2 ore |
Carichi di lavoro importanti ma non cruciali |
$$ |
Argento |
6 ore — pochi giorni |
24 ore |
Carichi di lavoro non critici |
$ |
Quando progetti carichi di lavoro per la resilienza, considera la relazione tra alta disponibilità e continuità delle operazioni. Ad esempio, se un carico di lavoro richiede una disponibilità del 99,99 percento, non sono tollerabili più di 53 minuti di inattività all'anno. Possono essere necessari almeno 5 minuti per rilevare un guasto e altri 10 minuti prima che un operatore interagisca, prenda decisioni sulle fasi di ripristino ed esegua queste operazioni. Non è insolito impiegare dai 30 ai 45 minuti per il ripristino di un singolo problema. In questo caso, è utile disporre di una strategia multiregionale per fornire un'istanza isolata che rimuova l'impatto correlato. In questo modo è possibile garantire la continuità delle operazioni grazie al failover entro un periodo di tempo limitato, mentre si procede alla valutazione del danno iniziale in modo indipendente. È qui che è necessario definire il tempo di ripristino limitato appropriato e garantire l'allineamento.
Un approccio multiregionale potrebbe essere appropriato per carichi di lavoro mission-critical che hanno esigenze di disponibilità estreme (ad esempio, disponibilità del 99,99% o superiore) o requisiti rigorosi di continuità delle operazioni che possono essere soddisfatti solo eseguendo il failover in un'altra regione. Tuttavia, questi requisiti sono in genere applicabili solo a un piccolo sottoinsieme del portafoglio di carichi di lavoro di un'azienda con un tempo di ripristino limitato, misurato in minuti o ore. A meno che un'applicazione non richieda un tempo di ripristino di pochi minuti o poche ore, potrebbe essere un approccio migliore attendere che un'interruzione regionale dell'applicazione venga risolta nella regione interessata. Questo approccio è in genere allineato ai carichi di lavoro di livello inferiore.
Prima di implementare un'architettura multiregionale, i responsabili delle decisioni aziendali e i team tecnici devono essere allineati sulle implicazioni in termini di costi, compresi i fattori di costo operativi e infrastrutturali. Una tipica architettura multiregionale può comportare un costo doppio rispetto a un approccio a regione singola. Sebbene esistano diversi modelli multiregionali per la continuità aziendale, ad esempio l'utilizzo di hot standby, warm standby o luce pilota, il modello con il rischio più basso di raggiungere gli obiettivi di ripristino comporterà l'utilizzo di hot standby e raddoppierà il costo del carico di lavoro.
Linee guida chiave
-
Gli obiettivi di disponibilità e continuità delle operazioni, come RTO e RPO, devono essere stabiliti per carico di lavoro e allineati agli stakeholder aziendali e IT.
-
La maggior parte degli obiettivi di disponibilità e continuità delle operazioni può essere raggiunta all'interno di una singola regione. Per quanto riguarda gli obiettivi che non possono essere raggiunti all'interno di una singola regione, è consigliabile prendere in considerazione più aree geografiche con una visione chiara dei compromessi tra costi, complessità e vantaggi.