PERF04-BP03 收集和记录数据库性能指标 - AWS Well-Architected Framework

PERF04-BP03 收集和记录数据库性能指标

要了解数据管理系统的运行情况,跟踪相关指标非常重要。这些指标将帮助您优化数据管理资源,确保满足您的工作负载需求,并确保您清楚地了解工作负载的运行情况。使用各种工具、库和系统来记录与数据库性能相关的性能测量值。

有些指标与数据库所在的系统有关(例如,CPU、存储、内存、IOPS),有些指标与访问数据本身有关(例如,每秒事务数、查询速率、响应时间、错误)。这些指标应便于任何支持或操作人员访问,并具有足够的历史记录,以便能够识别趋势、异常和瓶颈。

期望结果: 为了监控数据库工作负载的性能,您必须记录一段时间内的多个性能指标。这样您便可以检测异常并根据业务指标衡量性能,确保满足您的工作负载需求。

常见反模式:

  • 您只能手动搜索日志文件来查找指标。

  • 您只将指标发布到团队使用的内部工具,而没有全面了解您的工作负载。

  • 您只使用所选监控软件记录的默认指标。

  • 您只在出现问题时检查指标。

  • 您只监控系统级指标,而不捕获数据访问或使用情况指标。

建立此最佳实践的好处: 建立性能基准有助于了解工作负载的正常行为和需求。可以更快地识别和调试异常模式,从而提高数据库的性能和可靠性。可以配置数据库容量,以确保在不影响性能的情况下实现最佳成本。

未建立这种最佳实践的情况下暴露的风险等级:

  • 无法区分异常与正常的性能水平会给问题识别和决策带来困难。

  • 可能无法确定潜在的成本节约机会。

  • 无法识别增长模式,这可能导致可靠性或性能下降。

实施指导

识别、收集、聚合和关联与数据库相关的指标。指标应包括支持数据库的底层系统指标和数据库指标。底层系统指标可包括 CPU 利用率、内存、可用磁盘存储、磁盘 I/O 和网络入站和出站指标,而数据库指标可包括每秒事务数、最多的查询、平均查询速率、响应时间、索引使用情况、表锁定、查询超时和打开的连接数。这些数据对于了解工作负载的性能以及数据库解决方案的使用方式至关重要。将这些指标用作数据驱动方法的一部分,以便调整和优化工作负载的资源。 

实施步骤:

  1. 必须跟踪哪些数据库指标?

  2. 数据库监控是否会受益于检测操作异常和性能问题的机器学习解决方案?

    1. Amazon DevOps Guru for Amazon RDS 会显示性能问题,并提出纠正措施的建议。

  3. 您是否需要有关 SQL 使用情况的应用程序级详细信息?

    1. AWS X-Ray 可以签入到应用程序中以获得见解,并为单个查询封装所有数据点。

  4. 您目前是否有经过批准的日志记录和监控解决方案?

    1. Amazon CloudWatch 可以收集架构中各种资源的指标。您也可以收集和发布自定义指标,用于显示业务指标或派生指标。使用 CloudWatch 或第三方解决方案来设置指示超出阈值的警报。

  5. 您是否确定并配置了数据留存策略以匹配我的安全和运营目标?

实施计划的工作量级别: 从所有数据库资源中识别、跟踪、收集、聚合和关联指标所需的工作量为  。

资源

相关文档:

相关视频:

相关示例: