View a markdown version of this page

Documento sui risultati dell'esperimento - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Documento sui risultati dell'esperimento

Configurazione

Documenta le configurazioni specifiche dell'esperimento. Ad esempio:

  • Generazione del carico impostata per simulare 5.000 utenti che emettono un totale di 85 richieste al secondo.

Prerequisiti

  • È stato verificato che il sito di adozione degli animali domestici funzionasse nell'ambiente alpha test.

  • È stato verificato che il modello di esperimento fosse configurato per applicare lo stress della CPU ai pod delle PetSite applicazioni in esecuzione nel cluster EKS.  I pod delle applicazioni sono stati identificati dall'etichetta Kubernetes. app=petsite

  • È stato confermato che Load è in esecuzione e genera 85 richieste al secondo.

Stato stazionario

Documenta le misure adottate per raggiungere lo stato stazionario e come lo hai verificato. Ad esempio:

Per l'implementazione di test del sito di adozione di animali domestici, viene generato un carico di 85 RPS per simulare lo stato stazionario. Il CloudWatch RUM e i CloudWatch dashboard sono stati esaminati per verificare che tutte le metriche aziendali e applicative rientrassero negli intervalli normali precedenti all'esecuzione dell'esperimento.

Dati di osservabilità:

Expected (Atteso) Osservato
  • LCP è inferiore a 4 secondi per P99 di richieste.

  • La latenza di risposta è inferiore a 500 ms.

  • Non ci sono errori 4XX o 5XX.

Rapporto sullo stato stazionario 1 per Chaos Experiment.

Rapporto sullo stato stazionario 2 per l'esperimento del caos.

Iniezione per errore

AWS FIS è stato utilizzato per iniettare errori utilizzando il modello di esperimento (fornire un collegamento). L'esperimento era impostato per durare 10 minuti ed era stato configurato un rollback se i nodi di lavoro subivano uno stress della CPU superiore al 60 percento.

Osservazione dei guasti

Il CloudWatch RUM e i CloudWatch dashboard sono stati esaminati per tenere traccia dello stato stazionario dell'applicazione (definito utilizzando le metriche LCP).  Le schermate sono state acquisite nella tabella seguente.

Dati di osservabilità:

Expected (Atteso) Osservato
  • L'LCP dovrebbe rimanere inferiore a 4 secondi per P99.

  • Il tempo di risposta deve rimanere inferiore a 500 ms.

  • Non dovrebbero verificarsi errori 4XX o 5XX.

Rapporto di osservazione dei guasti 1 per Chaos Experiment.

Rapporto di osservazione dei guasti 2 per l'esperimento del caos.

Ripristino

Dopo che lo stress è stato rimosso (l' AWS FIS esperimento è stato completato e lo stress della CPU è stato rimosso dai pod), l'applicazione dovrebbe riprendere il suo normale stato stazionario.  Non dovrebbe essere richiesto alcun intervento manuale.

Dati di osservabilità:

Expected (Atteso) Osservato (screenshot)

LCP P99 dovrebbe essere inferiore a 4 secondi con una media inferiore a 2,5 secondi.

Esempi di risultati di recupero da Chaos Experiment.