监控 Direct Connect 资源 - AWS Direct Connect

监控 Direct Connect 资源

监控指标是维护 Direct Connect 资源的可靠性、可用性和性能的重要环节。您应从 AWS 解决方案的所有部分收集监控数据,以便更轻松地调试出现的多点故障。不过,在开始监控 Direct Connect 连接之前,您应制定监控计划并在计划中回答下列问题:

  • 监控目的是什么?

  • 应监控哪些资源?

  • 监控这些资源的频率应如何?

  • 您可以使用哪些监控工具?

  • 谁执行监控任务?

  • 出现错误时应通知谁?

下一步,通过在不同时间和不同负载条件下测量性能,在您的环境中建立正常 Direct Connect 性能的基准。在监控 Direct Connect 时,存储历史监控数据。这样,您可以将历史监控数据与当前性能数据进行比较,确定性能的正常模式和性能异常,并找出解决问题的方法。

要建立基准,您应监控 Direct Connect 物理连接的使用情况、状态和运行状况。

监控工具

AWS 为您提供了各种可以用来监控 Direct Connect 连接的工具。您可以配置其中的一些工具来为您执行监控任务,但有些工具需要手动干预。建议您尽可能实现监控任务自动化。

自动监控工具

您可以使用以下自动化监控工具来监控 Direct Connect 连接并在出现错误时报告:

  • Amazon CloudWatch 警报:在指定时间段内监控某个指标。在多个时间段内根据相对于给定阈值的指标值,执行一项或多项操作。操作是向 Amazon SNS 主题发送的通知。CloudWatch 警报将不会调用操作,因为这些操作处于特定状态,该状态必须改变并在指定数量的时间段内一直保持。有关可用指标和维度的信息,请参阅 使用 Amazon CloudWatch 监控

  • AWS CloudTrail 日志监控:在账户之间共享日志文件,并通过将日志文件发送到 CloudWatch Logs 来实时监控 CloudTrail 日志文件。您还可以使用 Java 编写日志处理应用程序,并验证您的日志文件在 CloudTrail 交付后未发生更改。有关更多信息,请参阅《AWS CloudTrail 用户指南》中的 记录 API 调用使用 CloudTrail 日志文件

手动监控工具

监控 Direct Connect 连接时的另一个重要环节:手动监控 CloudWatch 警报未涵盖的那些项。Direct Connect 和 CloudWatch 控制台控制面板提供 AWS 环境状态的概览视图。

  • 该 Direct Connect 控制台显示:

    • 连接状态 (请参阅 State 列)

    • 虚拟接口状态 (请参阅 State 列)

  • CloudWatch 主页显示:

    • 当前警报和状态

    • 告警和资源图表

    • 服务运行状况

    此外,您还可以使用 CloudWatch 执行以下操作:

    • 创建自定义控制面板以监控您关心的服务。

    • 绘制指标数据图,以排除问题并弄清楚趋势。

    • 搜索并浏览您所有的 AWS 资源指标。

    • 创建和编辑警报以接收有关问题的通知。