

# 运营视角：运行状况和可用性
<a name="operations-perspective"></a>

*运营* 视角专注于确保在与业务利益攸关方议定的级别交付云服务。自动化和优化运营将使您能够有效地进行扩展，同时提高工作负载的可靠性。此视角包含九项功能，如下图所示。常见的利益攸关方包括基础设施和运营负责人、站点可靠性工程师和信息技术服务经理。

![\[描绘 AWS CAF 运营视角功能的图。\]](http://docs.aws.amazon.com/zh_cn/whitepapers/latest/overview-aws-cloud-adoption-framework/images/cloud-adoption-10.png)


*AWS CAF 运营视角功能*
+ **可观测性** – 从基础设施和应用程序数据获得切实可行的洞察。当您以[云的速度和规模](https://aws.amazon.com/products/management-and-governance/use-cases/monitoring-and-observability/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc&blog-posts-cards.sort-by=item.additionalFields.createdDate&blog-posts-cards.sort-order=desc)运营时，您需要能够在问题出现时指出问题（理想的情况是，在问题导致客户体验中断之前指出问题）。开发必要的[遥测](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/design-telemetry.html)（日志、指标和跟踪），以了解工作负载的[内部状态](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/observability.html)和运行状况。监控应用程序端点，评估对终端用户的影响，并在测量值超过阈值时生成提示。

  可使用[合成监控](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)创建 Canary（按计划运行的可配置脚本）来监控端点和 API。实施[跟踪](https://aws.amazon.com/xray/)功能，以便在请求遍历整个应用程序时对其进行跟踪，并确定瓶颈或性能问题。使用指标和日志获得有关资源、服务器、数据库和网络的[洞察](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/observability.html)。设置时间序列数据的实时分析，了解性能影响的原因。将数据集中到单一[控制面板](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)，为您提供有关工作负载及其性能的关键信息的[统一视图](https://aws.amazon.com/opensearch-service/?nc=bc&pg=rs)。
+ **事件管理 (AIOps)** – 检测事件，评估事件的潜在影响，并确定适当的控制措施。能够过滤噪音、关注优先事件、预测即将发生的资源耗尽、自动生成提示和事件并确定可能的原因和补救措施，将有助于您改进事件检测和缩短响应时间。建立事件存储模式并利用[机器学习](https://aws.amazon.com/blogs/devops/gaining-operational-insights-with-aiops-using-amazon-devops-guru/) ([AIOps](https://aws.amazon.com/devops-guru/)) 来自动执行事件关联、异常检测和因果关系确定。与[云服务](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)和第三方工具（包括事件管理系统和流程）集成。自动响应事件以便减少由手动流程引起的错误，并确保响应及时且一致。
+ **事件和问题管理** – 快速恢复服务运营并将不良业务影响降至最低。随着云的采用，可实现服务问题和应用程序运行状况问题的响应流程的高度自动化，从而增加服务正常运行时间。随着您转向更加分散的运营模式，简化相关团队、工具和流程之间的交互将有助于您加快解决关键和/或复杂事件。在运维手册中定义上报路径，包括触发上报的事件和上报程序。

  练习事件响应[实际演练](https://wa.aws.amazon.com/wellarchitected/2020-07-02T19-33-23/wat.concept.gameday.en.html)，并将汲取的经验教训纳入运维手册。标识事件模式以确定问题和纠正措施。利用 [Chatbot](https://aws.amazon.com/chatbot/) 和协作工具将运营团队、工具和工作流联系起来。利用完善的[事件后分析](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html)来确定造成事件的因素并制定相应的行动计划。
+ **变更和发布管理** – 引入和修改工作负载，并最大限度地降低生产环境面临的风险。传统的发布管理是一个复杂的过程，部署速度慢且难以回滚。通过采用云，可以利用 CI/CD 技术快速管理发布和回滚。建立[变更流程](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/change-management.html)，实现与[云的敏捷性](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)保持一致的自动化审批[工作流](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html)。使用部署管理系统来跟踪并实施更改。[频繁](https://docs.aws.amazon.com/wellarchitected/latest/framework/oe-prepare.html)进行可逆的小规模更改可以缩小变更的范围。在所有[生命周期阶段](https://aws.amazon.com/devops/what-is-devops/)测试更改并验证结果，最大限度地减小部署失败的风险和影响。在没有达到预期时自动回滚到之前的已知良好状态，尽可能缩短恢复时间，并减少手动过程引起的错误。
+ **性能和容量管理** – 监控工作负载性能并确保容量满足当前和未来的需求。尽管云的容量实际上是无限的，但可以借助 [Service Quotas](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/manage-service-quotas-and-constraints.html)、[容量预留](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-capacity-reservations.html)和资源约束来限制工作负载的实际容量。需要[理解](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/)并有效[管理](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/manage-service-quotas-and-constraints.html)此类容量限制。确定主要利益攸关方，并就目标、范围和指标达成一致。收集和处理性能数据，并根据目标定期[审查](https://aws.amazon.com/blogs/opensource/the-wheel/)和报告性能。定期评估新技术以提高性能，并根据需要提出目标和指标更改建议。监控工作负载的利用率，制定基准以便将来比较，并根据需要确定阈值以扩展容量。分析一段时间内的需求，确保容量可满足季节性趋势和波动的运营条件。
+ **配置管理** – 保留所有云工作负载、它们之间的关系以及一段时间内的配置更改的完整准确的记录。除非得到有效管理，否则云资源预置的动态和虚拟特性可能会导致出现配置偏差。定义并实施[标记架构](https://d1.awsstatic.com/whitepapers/aws-tagging-best-practices.pdf)，将您的业务属性叠加到云使用情况，并利用标签按技术、业务和安全维度整理资源。指定强制性标签，并通过策略实施[合规性](https://docs.aws.amazon.com/config/latest/developerguide/evaluate-config.html)。利用[基础设施即代码](https://aws.amazon.com/cloudformation/) (IaC) 和配置管理[工具](https://aws.amazon.com/opsworks/)进行资源预置和[生命周期管理](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/servicemanagement.html)。制定配置[基准](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)并通过[版本控制](https://aws.amazon.com/devops/source-control/)予以维护。
+ **补丁管理** – 系统地分发和应用软件更新。软件更新可以修复新出现的安全漏洞、纠正错误并引入新功能。系统化的[补丁管理](https://docs.aws.amazon.com/prescriptive-guidance/latest/patch-management-hybrid-cloud/overview.html)方法将确保您受益于最新的更新，同时最大限度地减少生产环境面临的风险。在指定的[维护时段](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-patch-mw-console.html)内[应用](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html)重要更新，并尽快应用关键安全更新。提前告知用户即将发布的更新的详细信息，并允许他们在有其他缓解控制措施可用时延迟修补。在投入生产环境之前，更新您的机器映像并测试补丁。为确保修补期间的持续可用性，请考虑为每个可用区 (AZ) 和环境设立单独的维护时段。定期审查补丁合规性，并提示不合规团队应用所需的更新。
+ **可用性和连续性管理** – 确保业务关键型信息、应用程序和服务的可用性。在构建支持云的[备份](https://aws.amazon.com/backup/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc)解决方案时，需要仔细考虑现有的技术投资、恢复目标和可用资源。在发生[灾难](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-workloads-on-aws.html)和安全事件后，及时[恢复](https://aws.amazon.com/backup-restore/)将有助于保持系统可用性和[业务连续性](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/business-continuity-plan-bcp.html)。根据确立的时间表备份您的数据和文档。

  制定灾难恢复计划，将它作为业务连续性计划的一部分。确定每个工作负载的不同灾难场景的威胁、风险、影响和成本，并相应地指定恢复时间目标 (RTO) 和恢复点目标 (RPO)。利用多可用区或多区域架构实施所选灾难恢复[策略](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-options-in-the-cloud.html)。考虑利用[混沌工程](https://aws.amazon.com/fis/)来提高受控实验的弹性和性能。定期审查和测试您的计划，并根据汲取的经验教训调整您的方法。
+ **应用程序管理** – 在单个管理控制台中调查和修复应用程序问题。通过将应用程序数据聚合到[单个管理控制台](https://aws.amazon.com/blogs/aws/new-aws-systems-manager-consolidates-application-management/)中，可以减少在不同的管理工具之间切换上下文的需求，从而简化运营监督并加快修复应用程序问题。

  与其他运营和管理系统（例如应用程序组合管理和 CMDB）[集成](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager-getting-started-related-services.html)，[自动](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager.html)发现应用程序组件和资源，并将应用程序数据整合到单个管理控制台中。包括软件组件和基础设施资源，并描述不同的环境，例如开发、暂存和生产环境。要更快、更一致地修复运营问题，可以考虑自动执行[运维手册](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager-working-runbooks.html)工作流程。