改进 - AWS Well-Architected 框架

改进

学习、分享和不断改进,以保持卓越运营。将工作周期专用于持续进行渐进式改进。对影响客户的所有意外事件执行意外事件后分析。确定成因和预防措施,以限制或防止再次事件发生。视情况与受影响的团体沟通成因。定期评估并优先处理改进机会(例如,功能请求、问题修复和合规性要求),包括工作负载和运营程序。

将反馈环路纳入您的程序,以快速确定需要改进的领域,并从正在执行的运营中获取经验教训。

在团队中分享得到的经验教训和其中的效益。分析经验教训中的趋势,并对运营指标进行跨团队回顾性分析,以确定改进的机会和方法。实施更改以便改进,并评估结果以确定是否成功。

在 AWS 上,您可以将日志数据导出到 Amazon S3 或将日志直接发送到 Amazon S3,以便长期存储。使用 AWS Glue,您可以在 Amazon S3 中发现并准备日志数据以供分析,并将相关元数据存储在 AWS Glue Data Catalog 中。然后,Amazon Athena 通过与 AWS Glue 的原生集成,可用于分析日志数据,并使用标准 SQL 进行查询。使用像 Amazon Quick Suite 这样的商业智能工具,您可以直观显示、浏览和分析您的数据。发现可能推动改进的相关趋势和活动。

以下问题主要针对卓越运营方面的注意事项。

OPS 11:如何改进运营?
分配专门的时间和资源用于近乎持续的渐进式改进,以便提高运营的有效性和效率。

运营的成功改进建立在以下基础上:频繁的小规模改进;提供安全的环境和时间来试验、开发和测试改进;以及鼓励人们从失败中获取经验教训的整体氛围。随着运营控制水平的提高,对于沙盒、开发、测试和生产环境的运营支持促进了开发,并提高了对生产环境中部署的变更结果成功与否的可预测性。