监控 Direct Connect 资源
监控指标是维护 Direct Connect 资源的可靠性、可用性和性能的重要环节。您应从 AWS 解决方案的所有部分收集监控数据,以便更轻松地调试出现的多点故障。不过,在开始监控 Direct Connect 连接之前,您应制定监控计划并在计划中回答下列问题:
-
监控目的是什么?
-
应监控哪些资源?
-
监控这些资源的频率应如何?
-
您可以使用哪些监控工具?
-
谁执行监控任务?
-
出现错误时应通知谁?
下一步,通过在不同时间和不同负载条件下测量性能,在您的环境中建立正常 Direct Connect 性能的基准。在监控 Direct Connect 时,存储历史监控数据。这样,您可以将历史监控数据与当前性能数据进行比较,确定性能的正常模式和性能异常,并找出解决问题的方法。
要建立基准,您应监控 Direct Connect 物理连接的使用情况、状态和运行状况。
监控工具
AWS 为您提供了各种可以用来监控 Direct Connect 连接的工具。您可以配置其中的一些工具来为您执行监控任务,但有些工具需要手动干预。建议您尽可能实现监控任务自动化。
自动监控工具
您可以使用以下自动化监控工具来监控 Direct Connect 连接并在出现错误时报告:
-
Amazon CloudWatch 警报:在指定时间段内监控某个指标。在多个时间段内根据相对于给定阈值的指标值,执行一项或多项操作。操作是向 Amazon SNS 主题发送的通知。CloudWatch 警报将不会调用操作,因为这些操作处于特定状态,该状态必须改变并在指定数量的时间段内一直保持。有关可用指标和维度的信息,请参阅 使用 Amazon CloudWatch 监控 。
AWS CloudTrail 日志监控:在账户之间共享日志文件,并通过将日志文件发送到 CloudWatch Logs 来实时监控 CloudTrail 日志文件。您还可以使用 Java 编写日志处理应用程序,并验证您的日志文件在 CloudTrail 交付后未发生更改。有关更多信息,请参阅《AWS CloudTrail 用户指南》中的 记录 API 调用 和使用 CloudTrail 日志文件。
手动监控工具
监控 Direct Connect 连接时的另一个重要环节:手动监控 CloudWatch 警报未涵盖的那些项。Direct Connect 和 CloudWatch 控制台控制面板提供 AWS 环境状态的概览视图。
-
该 Direct Connect 控制台显示:
-
连接状态 (请参阅 State 列)
-
虚拟接口状态 (请参阅 State 列)
-
-
CloudWatch 主页显示:
-
当前警报和状态
-
告警和资源图表
-
服务运行状况
此外,您还可以使用 CloudWatch 执行以下操作:
-
创建自定义控制面板以监控您关心的服务。
-
绘制指标数据图,以排除问题并弄清楚趋势。
-
搜索并浏览您所有的 AWS 资源指标。
-
创建和编辑警报以接收有关问题的通知。
-