PERF02-BP03 收集与计算相关的指标
要了解计算资源的性能,您必须记录和跟踪各种系统的利用率。此数据可用于更准确地确定资源需求。
工作负载会生成大量数据,例如指标、日志和事件。确定您现有的存储、监控和可观察性服务是否可以管理生成的数据。确定反映资源利用率并且可以在单个平台上收集、聚合和关联的指标。这些指标应该代表您的所有工作负载资源、应用程序和服务,以便您可以轻松获得系统范围的可见性,并快速识别性能改进机会和问题。
期望结果: 在单个平台上,识别、收集、聚合和关联涉及到计算相关资源的所有指标,并进行保留以支持成本和运营目标。
常见反模式:
-
您只能手动搜索日志文件来查找指标。
-
您只能将指标发布到内部工具。
-
您只使用所选监控软件记录的默认指标。
-
您只在出现问题时检查指标。
建立此最佳实践的好处: 要监控工作负载的性能,必须记录一段时间的多项性能指标。您可以利用这些指标来检测性能异常。这些指标还有助于根据业务指标衡量性能,以确保满足工作负载需求。
未建立这种最佳实践的情况下暴露的风险等级: 高
实施指导
识别、收集、聚合和关联与计算相关的指标。使用 Amazon CloudWatch 之类的服务可以使实施速度更快并更易于维护。除了记录的默认指标外,还可以识别和跟踪工作负载中的其他系统级指标。记录 CPU 利用率、内存、磁盘 I/O 和网络入站和出站指标等数据,以深入了解利用率水平或瓶颈。这些数据对于了解工作负载的性能以及计算解决方案的使用方式至关重要。将这些指标用作数据驱动方法的一部分,以便主动调整和优化工作负载的资源。
实施步骤:
-
必须跟踪哪些计算解决方案指标?
-
我目前是否有经过批准的日志记录和监控解决方案?
-
我是否确定并配置了数据留存策略,以符合我的安全和运营目标?
-
您如何部署指标和日志聚合代理?
实施计划的工作量级别: 从所有计算资源中识别、跟踪、收集、聚合和关联指标所需的工作量为 中 。
资源
相关文档:
相关视频:
相关示例: