

# 设计原则
<a name="oe-design-principles"></a>

 以下是在云中实现卓越运营的设计原则： 
+  **执行运营即代码：**在云中，您可以将用于应用程序代码的工程规范应用于整个环境。您可以将整个工作负载（应用程序、基础设施等）定义为代码，并使用该代码进行更新。您可以为运营流程编写脚本，并通过启动这些脚本来自动执行流程，以响应事件。通过执行运营即代码，您可以减少人为错误并实现对事件的一致响应。
+  **频繁进行小型、可回滚的变更：**将工作负载设计为可扩展且松耦合，以允许定期更新组件。自动部署技术加上小型增量变更可缩小影响范围，并能够在发生故障时更快地进行回滚。这将增强您的信心，在保持质量和快速适应市场条件变化的同时，为您的工作负载提供有益的变化。
+  **经常完善操作程序：**随着工作负载的演变，应相应地改进操作程序。在使用运营程序时，要寻找机会改进它们。定期审查并验证所有流程是否有效，以及团队是否熟悉这些流程。在发现差距时，相应地更新程序。向所有利益相关者和团队传达程序更新。将运营游戏化，以分享最佳实践并向团队传授知识。
+  **预测故障：**执行“故障演练”，找出潜在的故障源，以便消除或减少故障。测试您的故障场景，并确认您了解相应影响。测试您的响应程序，以确保它们的有效性，以及团队熟练他们的流程。设置定期的实际演练，以测试工作负载和团队对模拟事件的响应。
+  **从所有运营故障中吸取经验教训：**从所有运营事件和故障中吸取经验教训，推动改进。在多个团队乃至组织范围中分享经验教训。
+  **使用托管服务：**尽可能使用 AWS 托管服务，减少运营负担。围绕与这些服务的交互制定操作程序。 
+  **实施可观测性以获得切实可行的见解：**全面了解工作负载行为、性能、可靠性、成本和运行状况。建立关键绩效指标（KPI），利用可观测性遥测来作出明智的决策，并在业务结果面临风险时迅速采取行动。基于可操作的可观测性数据，主动提高性能和可靠性，降低成本。 