概览 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

概览

监控和提醒包含在 AWS Well-Architected Framework 的四个支柱中。

  • 卓越运营支柱规定,您的工作负载设计应包括遥测和监控。诸如 Amazon Relational Database Service(Amazon RDS)之类的 AWS 服务提供必要的信息,以便您了解工作负载的内部状态(例如指标、日志、事件和跟踪)。在操作 Amazon RDS 数据库时,您需要了解数据库实例的运行状况,检测操作事件,并能够对计划内和计划外事件做出响应。AWS 提供监控工具,可帮助您确定组织和业务成果何时处于危险之中或可能面临风险,以便您能够在正确的时间采取适当的措施。

  • 性能效率支柱规定,您应通过实时收集、汇总和处理与性能相关的指标来监控资源(例如 Amazon RDS 数据库实例)的性能。您可以识别性能下降并修复导致性能下降的因素,例如 SQL 查询未优化或配置参数不足。在测量值超出预期边界时,您可以自动发出告警。我们建议您不仅要使用告警来发送通知,还要针对检测到的事件启动自动操作。您可以根据预定义的阈值评估收集的指标,也可以使用机器学习算法来识别异常行为。例如,要检测 CPU 利用率增加的趋势,您可以收集和分析一段时间内的 cpuUtilization.total 指标。在 CPU 利用率达到硬限制之前主动提醒该异常情况,可以帮助您在问题影响客户之前对其进行修复。

  • 可靠性支柱将监控和提醒定义为确保满足可用性要求至关重要。您的监控解决方案必须能够有效地检测故障。当检测到问题或故障时,其主要目标是对这些问题发出提醒。对于云中的韧性架构而言,实施持续的可观察性和监控实践是当务之急。要改善您的工作负载,您必须能够对其进行衡量并了解其状态和运行状况。自动从故障中恢复、横向扩展和容量预调配的设计原则取决于准确的监控和提醒服务。

  • 安全支柱讨论了对意外或不必要的配置更改及意外行为的检测和预防。您可以使用 MariaDB 审计插件配置 Amazon RDS for MySQL 和 MariaDB 数据库实例,以记录数据库活动,例如用户登录和针对数据库运行的特定操作。该插件将数据库活动记录存储在日志文件中,该文件可以集成并导入到监控和提醒工具中。系统会实时分析日志文件,以检测数据库中是否存在异常或可疑行为。此类意外或可疑行为可能表示您的 Amazon RDS 数据库实例已遭到入侵,这表明您的业务面临潜在风险。如果监控工具检测到此类事件,则会激活告警以启动对安全事件的响应,这有助于解决可疑和恶意活动。

目标业务成果

在监控和提醒机制中实施最佳实践可以帮助您确保为各种应用程序和工作负载提供高性能、韧性、高效、安全和成本优化的基础设施。您可以使用可观测性工具来实时收集、存储和可视化指标、事件、跟踪和日志,以观察和分析数据库的运行状况和性能的整体情况,从而防止关联的 IT 服务降级或中断。如果仍出现计划外降级或服务中断,则监控和提醒工具可帮助您及时检测问题、上报、做出反应,以及快速调查和解决问题。针对云数据库工作负载的全面监控和提醒解决方案可帮助您实现以下业务成果:

  • 改善客户体验。可靠的服务可改善您的客户体验。数据库通常是数字服务的关键组件,例如网络和移动应用程序、媒体流、支付、企业对企业(B2B)API 和集成服务。如果您能够在数据库上监控和设置提醒以快速检测问题,高效地调查问题,并尽快修复问题,从而最大限度地减少停机时间和其他中断,那么您就可以为客户增强数字服务的可用性、安全性和性能。

  • 建立客户信任。更好的性能和更流畅的用户体验可以帮助您赢得客户的信任,从而为您的平台带来更多业务。例如,提供可靠在线服务的付款处理服务提供商可以期望获得较高的客户信任度和忠诚度,从而带来更多的客户和更好的留存率,增加可计费的交易,以及产生更多收入的新型创新服务。

  • 避免经济损失。数据库基础设施中的任何意外停机都可能影响客户使用您的应用程序执行的业务事务。在某些情况下,这可能会导致重大的经济损失。违反服务水平协议(SLA)可能会导致客户失去信任,从而导致收入损失。它也可以成为昂贵诉讼的法律依据,在这种试验中,客户可能会根据您的责任和保修合同要求赔偿。根据软件公司 Atlassian Corporation的一项研究,服务中断的平均成本在每小时 14 万到 54 万美元之间,具体取决于企业的类型和规模。稳定的数据库环境是防止长时间中断和业务损失的关键。

  • 扩大价值。监控和提醒机制可以帮助您设计、开发和运营高可用性、韧性、可靠、高性能、经济实惠且安全的数字服务,但这仅仅是个开始。您希望您的组织随着时间的推移而扩展并蓬勃发展,增强现有的云工作负载,并引入新的服务。新服务可为您的客户提供额外价值,为您的业务带来更多收入,从而对您的业务增长产生飞轮效应。

  • 提高开发人员的工作效率。高效的开发者如果在开发任务中没有遇到问题和瓶颈,就可以在更短的时间内交付高质量的产品。但是,软件工程和 IT 运营往往面临复杂的挑战,这种复杂性会随着工作负载及其架构的规模而增加。要分析分布式应用程序的性能和一致性,开发者需要能够提供相关指标和跟踪的工具。它们有助于尽快识别有缺陷的代码构件和基础设施组件,并有助于确定对最终用户的影响。合适的监控和提醒工具套件可以帮助开发者更好、更快地进行编码和测试。

  • 提高运营效率和效益。当您大规模运行云工作负载时,即使性能提升幅度很小,也能节省数百万美元。通过监控数据库并分析指标、事件、日志和跟踪,您可以了解和预测未来的容量需求,并可以利用 AWS 云中提供的成本节约。了解您的 Amazon RDS 工作负载和运行状况可以帮助您应对事件、修复问题及规划改进。