View a markdown version of this page

Dokument mit den Ergebnissen des Experiments - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Dokument mit den Ergebnissen des Experiments

Konfiguration

Dokumentieren Sie die spezifischen Konfigurationen für das Experiment. Beispiel:

  • Das System zur Lastgenerierung simuliert 5.000 Benutzer, die insgesamt 85 Anfragen pro Sekunde ausgeben.

Voraussetzungen

  • Es wurde überprüft, ob die Website zur Adoption von Haustieren in der Alphatestumgebung lief.

  • Es wurde überprüft, ob die Experimentvorlage so konfiguriert wurde, dass sie die PetSite Anwendungs-Pods, die im EKS-Cluster ausgeführt werden, mit CPU-Belastung stress.  Anwendungs-Pods wurden anhand des Kubernetes-Labels identifiziert. app=petsite

  • Es wurde bestätigt, dass Load läuft und 85 Anfragen pro Sekunde generiert.

Stetiger Zustand

Dokumentieren Sie die Schritte, die Sie unternommen haben, um den Steady-State zu erreichen, und wie Sie ihn verifiziert haben. Beispiel:

Für den Testeinsatz an der Adoptionsstelle für Haustiere wird eine Last von 85 RPS erzeugt, um den stationären Zustand zu simulieren. Vor der Durchführung des CloudWatch Experiments wurden CloudWatch RUM und Dashboards überprüft, um sicherzustellen, dass alle Geschäfts- und Anwendungsmetriken im normalen Bereich lagen.

Daten zur Beobachtbarkeit:

Expected Beobachtet
  • LCP dauert weniger als 4 Sekunden für P99 der Anfragen.

  • Die Antwortlatenz beträgt weniger als 500 ms.

  • Es liegen keine 4XX- oder 5XX-Fehler vor.

Steady-State-Bericht 1 für das Chaos-Experiment.

Steady-State-Bericht 2 für das Chaosexperiment.

Fehlerinjektion

AWS FIS wurde verwendet, um Fehler mithilfe der Versuchsvorlage zu injizieren (Link angeben). Das Experiment sollte 10 Minuten dauern, und es wurde ein Rollback konfiguriert, wenn die Workerknoten einer CPU-Belastung von über 60 Prozent stress waren.

Beobachtung des Fehlers

Der CloudWatch RUM und die CloudWatch Dashboards wurden überprüft, um den stabilen Zustand der Anwendung nachzuverfolgen (definiert anhand von LCP-Metriken).  Screenshots wurden in der folgenden Tabelle erfasst.

Daten zur Beobachtbarkeit:

Expected Beobachtet
  • LCP sollte für P99 unter 4 Sekunden bleiben.

  • Die Reaktionszeit sollte unter 500 ms bleiben.

  • Es sollten keine 4XX- oder 5XX-Fehler auftreten.

Bericht 1 zur Fehlerbeobachtung für das Chaosexperiment.

Fehlerbeobachtungsbericht 2 für das Chaosexperiment.

Wiederherstellung

Nachdem der Stress entfernt wurde (das AWS FIS Experiment ist abgeschlossen und die CPU-Belastung der Pods wurde entfernt), sollte die Anwendung ihren normalen stationären Zustand wieder aufnehmen.  Es sollte kein manuelles Eingreifen erforderlich sein.

Daten zur Beobachtbarkeit:

Expected Beobachtet (Bildschirmfoto)

LCP P99 sollte unter 4 Sekunden liegen, der Durchschnitt unter 2,5 Sekunden.

Ergebnisse der Probenwiederherstellung aus dem Chaosexperiment.