View a markdown version of this page

准备 - AWS Well-Architected Framework

准备

要为卓越运营做好准备,您必须了解您的工作负载及其预期行为。然后,您需要能够针对它们进行设计,以提供对其状态的洞察并构建程序以提供支持。

将工作负载设计成能够提供必要的信息,以便您了解其所有组件的内部状态(例如指标、日志、事件和跟踪信息),为可观测性和调查问题提供支持。可观测性不仅仅是简单的监控,它让您可以根据系统的外部输出全面了解系统的内部运作。可观测性源于指标、日志和跟踪数据,可提供对系统行为和动态的深刻见解。通过有效的可观测性,团队可以识别模式、异常和趋势,从而能够主动解决潜在问题并保持最佳系统运行状况。要想确保监控活动与业务目标协调一致,确定关键绩效指标(KPI)至关重要。这种一致性可确保团队使用真正重要的指标作出数据驱动型决策,从而优化系统性能和业务成果。此外,可观测性使企业能够积极采取行动,而不是被动做出反应。团队可以了解其系统中的因果关系,以此预测和预防问题,而不仅仅是对问题做出反应。随着工作负载的变化,必须重新审视和完善可观测性策略,确保其仍然适用且有效。

采用改进生产调整流程并支持重构、快速质量反馈和错误修复的方法。这些方法可以加快有益更改进入生产环境的速度、减少产生的问题,并能够快速识别和修复通过部署活动引入的问题或在环境中发现的问题。

采用可提供快速质量反馈,并在更改没有达到目标成效时实现快速恢复的方法。使用这些实践可以减轻因部署更改而产生的问题的影响。制定计划以防更改不成功,这样在必要时能够更快速的响应,并测试和验证所做的更改。了解环境中的计划活动,以便管理更改风险,避免影响计划活动。强调频繁、小规模、可逆更改,以限制更改范围。这样可以加快故障排除和修复速度,并支持回滚更改。此外,还意味着能够更频繁地从有价值的更改中获益。

评估工作负载、流程和程序以及工作人员的运营准备就绪情况,以了解与工作负载相关的运营风险。使用一致的流程(包括手动或自动化检查清单)来了解何时可运营工作负载或进行更改。这也有助于您发现必须制定计划予以解决的任何问题。准备好记录日常活动的运行手册和指导问题解决流程的行动手册。了解收益和风险,以便作出明智的决策,从而将更改应用于生产环境。

AWS 使您能够将整个工作负载(应用程序、基础设施、策略、监管和运维)视为代码。这意味着,您可以将用于应用程序代码的工程规范应用于堆栈的每个元素,并在团队或组织之间共享,提高开发工作的效益。使用云中的运营即代码功能和安全测试功能开发工作负载、运营流程和故障演练。使用 CloudFormation,您可以实现一致的模板化沙盒开发、测试和生产环境,提高运营管理水平。

以下问题主要针对卓越运营的准备阶段。

OPS 4:  How do you implement observability in your workload?
Implement observability in your workload so that you can understand its state and make data-driven decisions based on business requirements.
OPS 5:  How do you reduce defects, ease remediation, and improve flow into production?
Adopt approaches that improve flow of changes into production that achieve refactoring fast feedback on quality, and bug fixing. These accelerate beneficial changes entering production, limit issues deployed, and achieve rapid identification and remediation of issues introduced through deployment activities.
OPS 6:  How do you mitigate deployment risks?
Adopt approaches that provide fast feedback on quality and achieve rapid recovery from changes that do not have desired outcomes. Using these practices mitigates the impact of issues introduced through the deployment of changes.
OPS 7:  How do you know that you are ready to support a workload?
Evaluate the operational readiness of your workload, processes and procedures, and personnel to understand the operational risks related to your workload.

对代码化运营进行投资,以最大限度地提高运营人员的工作效率,最大限度地降低错误率,并实现自动响应。使用“故障演练”来预测故障,并在适当的时候创建程序。使用资源标签和 AWS Resource Groups,按照一致的标记策略应用元数据,以标识您的资源。标记您的资源,以便进行整理、成本核算、访问控制并有针对性地自动执行运营活动。利用云的弹性特点结合相应部署实践,来推动开发活动和系统的预部署,以加快部署速度。当您对用于评估工作负载的检查清单进行更改时,请计划要对不再符合条件的活动系统执行哪些操作。