View a markdown version of this page

Skalierung von Chaos Engineering in Ihrem gesamten Unternehmen - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Skalierung von Chaos Engineering in Ihrem gesamten Unternehmen

Wenn Ihr Unternehmen Chaos Engineering einführt, werden dessen Standardisierung und Implementierung mit Herausforderungen verbunden sein. In den frühen Reifephasen werden verschiedene Teams wahrscheinlich unterschiedliche Tools und Varianten des Chaos Engineering-Prozesses verwenden, der in den vorherigen Abschnitten beschrieben wurde. Gleichzeitig räumen einige Teams trotz der potenziellen Vorteile möglicherweise gar keine Prioritäten ein oder setzen sie gar nicht ein. Die folgenden Abschnitte enthalten Anleitungen zur Bewältigung dieser Herausforderungen.

Insgesamt sollte Ihr Ansatz für Chaos Engineering so konzipiert sein, dass er ein Gleichgewicht zwischen zentraler Führung und dezentraler Beteiligung herstellt. Dieses Gleichgewicht trägt dazu bei, dass Chaos Engineering in den Entwicklungsprozess integriert wird und dass die Erkenntnisse innerhalb Ihres Unternehmens geteilt werden.

Etablierung einer Praxis für Chaos-Engineering

Die Standardisierung der Praxis der Chaos-Technik kann deren Einführung beschleunigen. Der Austausch der Erkenntnisse aus Experimenten zwischen den Teams kann die Rendite von Investitionen in Chaos Engineering erhöhen.

Bauen Sie im Rahmen Ihrer Chaos-Engineering-Praxis ein zentrales Exzellenzzentrum auf oder stellen Sie eine Gruppe von Fachexperten zusammen. Als kleine, zentrale Funktion kann dieses Team in allen Softwareentwicklungs-, Infrastruktur-, Sicherheits- und Geschäftsteams arbeiten und die Standards einhalten, die von diesen Teams verwendet werden. Der Einfachheit halber wird das Center of Excellence das Centralized Practice Team genannt, und Gruppen, die Chaos Engineering anwenden, werden im weiteren Verlauf dieses Leitfadens als Übungsteams bezeichnet.

Rolle des zentralisierten Praxisteams

Das zentralisierte Praxisteam ist für die Entwicklung und Implementierung von Chaos-Engineering-Praktiken im gesamten Unternehmen verantwortlich. Sie arbeiten eng mit den Praxisteams zusammen, um sie bei der Planung und Durchführung von Experimenten zu unterstützen und sicherzustellen, dass die Experimente für das Unternehmen wertvoll sind. Das zentralisierte Praxisteam berät und unterstützt auch die Entwicklungs-, Infrastruktur- und Sicherheitsteams, um sie bei der Integration von Chaos Engineering in ihre Entwicklungsprozesse zu unterstützen.

Zu den wichtigsten Aufgaben eines zentralisierten Praxisteams für Chaos-Engineering gehören:

  • Unterstützung — Eine zentrale Abteilung für Chaostechnik fungiert als Vermittler, um die Praxis der Chaostechnik im Rahmen von Spieltagen und Workshops einzuführen. Sie unterstützen Teams bei der Entwicklung von Chaos Engineering, einschließlich der Auswahl von Fehlerszenarien, der Definition von Hypothesen und der Erstellung von Berichten, die der gesamten Organisation zur Verfügung gestellt werden. Das zentralisierte Praxisteam sollte über die eigenen Schulungsmaterialien verfügen und daran arbeiten, die Übungsteams im Umgang mit Chaos Engineering weiterzubilden.

  • Beratung — Das zentralisierte Praxisteam kann auch beratend tätig werden und die Experimente beaufsichtigen, die von den Übungsteams durchgeführt werden. Ihre Erfahrung und ihr Wissen können sicherstellen, dass Experimente einen Mehrwert für das Unternehmen bieten und auf sichere Weise durchgeführt werden. In ähnlicher Weise kann das Team die Durchführung und Nachbesprechung eines Experiments beaufsichtigen, um Personen, die mit Chaos Engineering noch nicht vertraut sind, eine Anleitung zu geben.

  • Marketing und Wertverfolgung — Die Vermittlung des geschäftlichen Nutzens von Chaos Engineering ist der Schlüssel zum Erfolg eines solchen Programms. Jedes Team, das an Chaos-Engineering-Experimenten teilnimmt, sollte Daten aus den Experimenten im gesamten Unternehmen sammeln und den Wert der Investition des Unternehmens in Chaos Engineering nachweisen. Dazu gehören die Quantifizierung und Würdigung der Anzahl der Vorfälle, die bei jedem Experiment vermieden wurden, der Ausfallzeiten, die bei einem Fehlschlagen des Experiments entstanden wären, und der Gesamtauswirkungen, die sich auf das Unternehmen ausgewirkt hätten, wenn die Ausfallszenarien in der Produktion aufgetreten wären. Durch die Erfassung und Zentralisierung solcher Daten aus allen Teams und die Bereitstellung der Daten im gesamten Unternehmen kann das zentralisierte Praxisteam den Nutzen verfolgen und beeinflussen, der sich aus der Einführung von Chaos Engineering im gesamten Unternehmen ergibt.

  • Standards — Das zentralisierte Praxisteam sollte den Prozess zur Durchführung von Chaos-Experimenten, die Vorlagen für die Planung und Berichterstattung über Experimente und die zur Durchführung von Experimenten verwendeten Tools selbst in die Hand nehmen und verwalten.

    Das zentrale Team sollte die Vorlagen für die Experimentplanung, die Vorlagen für die Versuchsberichte, die Prozessdokumentation und die Materialien für die Durchführung verwalten und verwalten. Die Dokumentation bewährter Verfahren und das Begleitmaterial bieten erfahrenen Teams Anleitungen zu Themen wie den Leitplanken, mit denen sie die Auswirkungen eines Experiments begrenzen können, wann ein Experiment in der Produktion durchgeführt werden sollte und wie sie Chaos Engineering im Laufe der Zeit weiterentwickeln können. Beispiele für Vorlagen und Ergebnisse finden Sie im Anhang.

    Das zentralisierte Praxisteam sollte auch für den Ablauf der Durchführung eines Experiments verantwortlich sein, einschließlich Kommunikation und Eskalation, und darüber, wann und wie vor oder während eines Experiments mit anderen Teams in der Organisation kommuniziert werden soll. In dem Prozess sollte auch dargelegt werden, wann Leitplanken erforderlich sind.

    Das zentralisierte Praxisteam sollte auch die wichtigsten Tools für die Durchführung von Chaosexperimenten auswählen und für sich entscheiden (z. B. Tools wie AWS FIS). Die Entscheidung über die Auswahl und Implementierung zusätzlicher Instrumente, wie z. B. Tools zur Lastgenerierung, sollte den Praxisteams überlassen werden. Übende Teams sollten in der Lage sein, den Gesamtprozess und die Tools so anzupassen, dass sie ihren Bedürfnissen am besten entsprechen.

Rolle der praktizierenden Teams

Das zentralisierte Team ist dafür verantwortlich, die gesamte Chaos-Engineering-Strategie voranzutreiben, wohingegen die Übungsteams am Prozess beteiligt sind und für die Entwicklung und Durchführung der Experimente verantwortlich sind. Dadurch wird sichergestellt, dass die Experimente für jedes spezifische Produkt oder jede Dienstleistung relevant sind und dass die Erkenntnisse umsetzbar sind und zur Verbesserung der Zuverlässigkeit und Widerstandsfähigkeit des Produkts angewendet werden können. Das zentralisierte Praxisteam fungiert als Mentor und verantwortlich für die Chaos-Engineering-Standards und -Prozesse der Organisation. Um jedoch zu verhindern, dass das zentralisierte Team zu einem Engpass wird, müssen die einzelnen Übungsteams von der zentralen Praxis lernen, um Chaosexperimente selbst durchzuführen.

Aufbau einer Praxisgemeinschaft

Wir empfehlen Ihnen, nicht nur ein zentralisiertes Team zusammenzustellen, sondern auch eine informelle Gemeinschaft von Praktikern aufzubauen, die sich für Chaos Engineering interessieren. Diese Community bietet eine Plattform für den Austausch von Wissen, bewährten Verfahren und Erfahrungen zwischen den beteiligten Teams und der gesamten Organisation.

Die Praxisgemeinschaft kann vom zentralisierten Praxisteam für Chaos Engineering betrieben werden, aber jeder innerhalb der Organisation kann Mitglied der Community werden. Das zentralisierte Team kann die Community of Practice nutzen, um Neuigkeiten zu verbreiten und Erkenntnisse zu sammeln und Feedback von Teams einzuholen, die die Standards und Verfahren anwenden, die vom zentralisierten Team verwaltet werden. Die Community wird als Feedback-Schleife dienen, um das zentralisierte Team über die Wirksamkeit der Chaos-Engineering-Praktiken in den beteiligten Teams zu informieren. Das zentralisierte Praxisteam kann dann seine Dokumentation und die unterstützenden Artefakte anpassen, um die Produktteams bestmöglich zu unterstützen.

Integration von Chaos Engineering in Ihre betriebliche Resilienz

Ein Chaosexperiment ist eine Investition Ihres Unternehmens, um Vorfälle in der Produktion zu verhindern. Es muss ermittelt werden, wo das Unternehmen die größte Rendite aus dieser Investition erzielen kann. Die Organisation kann mit dem zentralisierten Team für Chaos Engineering zusammenarbeiten, um ihre Standards zu aktualisieren und festzustellen, welche Produkte kritisch genug sind, um Chaosexperimente erforderlich zu machen.

Prozess der Systementwicklung

Chaos-Engineering und Chaos-Experimente sollten im Rahmen des Lebenszyklus einer Anwendung wiederholt durchgeführt werden. Ähnlich wie Teams regelmäßig Notfallwiederherstellungstests durchführen, sollten sie das ganze Jahr über kontinuierlich und regelmäßig Chaos-Experimente und Spieltage durchführen. Dieser Ansatz verbessert die Art und Weise, wie ein Unternehmen Vorfälle antizipiert, beobachtet und darauf reagiert.