Konfiguration Voraussetzungen Stetiger Zustand Fehlerinjektion Beobachtung des Fehlers Wiederherstellung

Dokument mit den Ergebnissen des Experiments

Konfiguration

Dokumentieren Sie die spezifischen Konfigurationen für das Experiment. Beispiel:

Das System zur Lastgenerierung simuliert 5.000 Benutzer, die insgesamt 85 Anfragen pro Sekunde ausgeben.

Voraussetzungen

Es wurde überprüft, ob die Website zur Adoption von Haustieren in der Alphatestumgebung lief.
Es wurde überprüft, ob die Experimentvorlage so konfiguriert wurde, dass sie die PetSite Anwendungs-Pods, die im EKS-Cluster ausgeführt werden, mit CPU-Belastung stress. Anwendungs-Pods wurden anhand des Kubernetes-Labels identifiziert. app=petsite
Es wurde bestätigt, dass Load läuft und 85 Anfragen pro Sekunde generiert.

Stetiger Zustand

Dokumentieren Sie die Schritte, die Sie unternommen haben, um den Steady-State zu erreichen, und wie Sie ihn verifiziert haben. Beispiel:

Für den Testeinsatz an der Adoptionsstelle für Haustiere wird eine Last von 85 RPS erzeugt, um den stationären Zustand zu simulieren. Vor der Durchführung des CloudWatch Experiments wurden CloudWatch RUM und Dashboards überprüft, um sicherzustellen, dass alle Geschäfts- und Anwendungsmetriken im normalen Bereich lagen.

Daten zur Beobachtbarkeit:

Expected	Beobachtet
LCP dauert weniger als 4 Sekunden für P99 der Anfragen. Die Antwortlatenz beträgt weniger als 500 ms. Es liegen keine 4XX- oder 5XX-Fehler vor.

Fehlerinjektion

AWS FIS wurde verwendet, um Fehler mithilfe der Versuchsvorlage zu injizieren (Link angeben). Das Experiment sollte 10 Minuten dauern, und es wurde ein Rollback konfiguriert, wenn die Workerknoten einer CPU-Belastung von über 60 Prozent stress waren.

Beobachtung des Fehlers

Der CloudWatch RUM und die CloudWatch Dashboards wurden überprüft, um den stabilen Zustand der Anwendung nachzuverfolgen (definiert anhand von LCP-Metriken). Screenshots wurden in der folgenden Tabelle erfasst.

Daten zur Beobachtbarkeit:

Expected	Beobachtet
LCP sollte für P99 unter 4 Sekunden bleiben. Die Reaktionszeit sollte unter 500 ms bleiben. Es sollten keine 4XX- oder 5XX-Fehler auftreten.

Wiederherstellung

Nachdem der Stress entfernt wurde (das AWS FIS Experiment ist abgeschlossen und die CPU-Belastung der Pods wurde entfernt), sollte die Anwendung ihren normalen stationären Zustand wieder aufnehmen. Es sollte kein manuelles Eingreifen erforderlich sein.

Daten zur Beobachtbarkeit:

Expected	Beobachtet (Bildschirmfoto)
LCP P99 sollte unter 4 Sekunden liegen, der Durchschnitt unter 2,5 Sekunden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Dokument zur Planung des Experiments

Dokumentverlauf