Stufe 5: Reagieren und lernen

Wenn Sie ein Startup durchführen, können komplexe Post-Mortem-Prozesse Ihr Team verlangsamen. In diesem Kapitel wird untersucht, wie Sie aus Vorfällen lernen können, ohne sie in bürokratische Übungen umzuwandeln.

Integrieren Sie das Lernen aus Vorfällen in Ihre bestehenden Rhythmen. Wenn Ihr Team bereits regelmäßige Treffen hat, nehmen Sie sich zehn Minuten Zeit, um aktuelle Vorfälle zu besprechen. Konzentrieren Sie sich auf praktische Fragen wie:

Haben die Runbooks geholfen?
Wurden die Benachrichtigungen zur richtigen Zeit ausgelöst?
Hätten AWS Managed Services dies verhindern können?

Konzentrieren Sie sich auf Aktionen, nicht auf Schuldzuweisungen. In einem Startup baut man kein perfektes System, sondern eines, das jedes Mal besser wird, wenn etwas schief geht.

Sie können Ihr Ticketsystem verwenden, um Vorfälle nachzuverfolgen. Es sind keine speziellen Tools erforderlich. Erstellen Sie eine einfache Vorlage, die den Zeitplan des Vorfalls, die Auswirkungen auf den Kunden, die ergriffenen Wiederherstellungsmaßnahmen und die gewonnenen Erkenntnisse enthält. Dies kann zu einem institutionellen Gedächtnis werden, wenn Sie es aktiv nutzen. Sehen Sie sich beim Onboarding vergangene Vorfälle an, um neue Techniker auf dem Laufenden zu halten. Beziehen Sie sich bei der Entwicklung ähnlicher Systeme in Architekturprüfungen auf sie. Nehmen Sie sie in die Spieltage auf, um realistische Ausfallszenarien zu erstellen, die auf tatsächlichen Ereignissen basieren. Die Vorlage erfasst, was passiert ist, und bei regelmäßiger Anwendung wird daraus organisatorisches Lernen.

Wenn Startups wachsen, entstehen Muster. Vielleicht fallen bestimmte Komponenten häufiger aus, oder vielleicht verursachen bestimmte Arten von Änderungen Probleme. Verwenden Sie diese Muster als Richtschnur für Investitionen in Resilienz. Wenn Datenbank-Failovers zu Problemen führen, sollten Sie erwägen, Ihre Einrichtung für mehrere Availability Zones zu verbessern. Wenn Serviceunterbrechungen von Drittanbietern häufig vorkommen, sollten Sie die Verbesserung der Schutzschalter in Betracht ziehen.

Das Ziel besteht nicht darin, jeden möglichen Ausfall zu verhindern. Das ist unmöglich und würde dich zu sehr verlangsamen. Das Ziel besteht darin, schnell zu lernen, sich schnell anzupassen und dafür zu sorgen, dass die Anwendung zuverlässig genug ist, während Sie schnell wachsen. Nutzen Sie jeden Vorfall als Chance, Ihr System ein wenig widerstandsfähiger zu machen, Ihr Team ein wenig sachkundiger zu machen und Ihre Kunden ein wenig mehr Vertrauen in Ihren Service zu haben. Für Startups sind Geschwindigkeit und Lernen wichtiger als Perfektion. Entwickeln Sie einfache Prozesse, mit denen Sie aus Vorfällen lernen können, ohne die Innovation zu bremsen. Die besten Resilienz-Praktiken sind die, die Ihr Team tatsächlich anwendet.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Stufe 4: Bedienen

Nächste Schritte