View a markdown version of this page

第四阶段:运营 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第四阶段:运营

您已经构建了一个弹性应用程序并对其进行了测试。现在,日常现实使它继续运转。但是在初创公司中,你无法观看所有操作,也不应该尝试这样做。关键是在不提供太多指标或使团队负担过重的情况下对重要的事情保持警惕。

从客户的角度开始。Amazon S CloudWatch ynthetics 加那利群岛充当自动买家。他们不断测试关键的用户旅程。让他们登录,使用测试账户模拟购买,或者访问关键功能,尤其是在你最繁忙的时候。这可以帮助您了解客户体验,并帮助您在真实用户发现问题之前发现问题。当金丝雀失败时,从客户的角度来看,你会立即知道出了点问题。

在此基础上再接再厉,重点监控支持基础架构。什么信号告诉你有麻烦? Amazon CloudWatch 可帮助您构建跟踪这些迹象的仪表板。不要只监控技术指标,还要将它们与业务影响联系起来。例如,高 CPU 使用率很重要,但这是因为它可能会降低您使用加那利群岛跟踪的客户体验。

作为一种实用的方法,将您的监控与客户旅程对应起来。如果您运行的是软件即服务 (SaaS) 平台,则可能关心 API 响应时间、身份验证成功率和核心功能可用性。设置提醒,告知您这些指标何时出现偏差。但是,要有选择性。每个警报都应要求采取行动。如果你的团队因为 “可能什么都不是” 而开始忽略警报,那么你设置的指标太多了,或者跟踪的指标有误。

通过您的团队已经使用的工具发送这些警报。如果您的工程师使用的是特定的消息传递应用程序,请在那里发送警报。目标是在不创建新流程的情况下快速感知。当警报触发时,你的团队应该确切地知道它的含义以及该怎么做。

保持操作文档的精简和实用。将包含代码的 runbook 存储在版本控制中,但请记住,它们不是小说。当出现故障时,您的团队需要采取清晰、可操作的步骤。每个警报都应链接到相应的运行手册,并且每个运行手册都应回答三个问题:

  • 什么坏了?

  • 这为什么非常重要?

  • 如何修复此问题?

实施简单的事件管理流程。你不需要复杂的框架,只需要明确定义什么构成事件以及事态升级时该给谁打电话。保留事件日志,因为它们可以帮助您提高应用程序的弹性。

关键是在警惕和开销之间找到最佳位置。使用 AWS 工具尽你所能实现自动化,专注于监控影响客户的指标,并保持流程足够轻松,以便随着增长而发展。

下一章探讨如何在不牺牲使初创企业与众不同的速度和创新的情况下培养韧性心态。归根结底,韧性既关乎人,也关乎技术。