View a markdown version of this page

第五阶段:响应与学习 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第五阶段:响应与学习

当你经营一家初创公司时,复杂的验尸流程可能会减慢团队的速度。本章探讨了如何从事件中吸取教训而不将其变成官僚主义活动。

将事件学习整合到您现有的节奏中。如果您的团队已经定期开会,请花十分钟时间讨论最近发生的事件。专注于实际问题,例如:

  • 运行手册有帮助吗?

  • 警报发生的时间是否正确?

  • AWS 托管服务能阻止这种情况吗?

专注于行动,而不是责备。在初创公司中,你不是在构建一个完美的系统;而是在构建一个每次出现问题时都会变得更好的系统。

您可以使用票务系统来跟踪事件;无需专门的工具。创建一个简单的模板,其中包括事件时间表、客户影响、采取的恢复步骤和经验教训。如果你积极使用它,这个 cam 就会变成机构记忆。在入职期间查看过去的事件,让新工程师快速上手。设计类似系统时,请在架构评论中参考它们。让他们进入游戏时代,根据实际事件创建逼真的故障场景。该模板记录了发生的事情,经常使用可以将其转化为组织学习。

随着初创公司的发展,模式也随之出现。也许某些组件更频繁地出现故障,或者某些类型的更改可能会导致问题。使用这些模式来指导弹性投资。如果数据库故障转移导致问题,请考虑改进您的多可用区设置。如果第三方服务中断是常见的主题,可以考虑改进断路器。

目标不是防止所有可能的故障。这是不可能的,而且会减慢你的速度。目标是在快速成长的同时,快速学习、快速适应并保持应用程序足够可靠。利用每一次事件的机会,让你的系统更具弹性,让你的团队知识更丰富,让你的客户对你的服务更有信心。对于初创公司来说,速度和学习效果都非常完美。创建轻量级流程,帮助您在不减缓创新的情况下从事件中吸取教训。最佳弹性实践是您的团队实际使用的实践。