对监控和警报问题进行故障排除 - AWS Transfer Family

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

对监控和警报问题进行故障排除

本节提供有关对监控和警报问题进行故障排除的信息 AWS Transfer Family,包括 CloudWatch 指标缺失或不完整以及 EventBridge 事件缺失。

对缺失或不完整的 CloudWatch 指标进行故障排除

描述

CloudWatch 您的 Transfer Family 服务器的指标缺失、不完整或未按预期更新。

原因

指标缺失或不完整可能是由多种因素造成的:

  • 记录配置问题

  • 活动水平低,无法在预期的时间范围内生成指标

  • 查看维度或时间范围不正确的指标

解决方案

要解决 CloudWatch 指标缺失或不完整的问题,请执行以下操作:
  1. 确保已正确配置您的 Transfer Family 服务器的日志记录:

    • 在 Transfer Family 控制台中,在 “服务器详情” > “其他详细信息” > “记录角色” 下检查是否启用了日志记录

    • 因此,日志记录角色具有必要的权限和信任关系。

  2. 在 CloudWatch 控制台中查看指标时:

    • 使用正确的维度,例如服务器级别ServerId的指标

    • 调整时间范围以确保它涵盖活动时段

    • 检查你的输入是否正确 AWS 区域

  3. 在 Transfer Family 服务器上生成测试活动,确保指标正在生成。

解决丢失 EventBridge的事件

描述

您已将亚马逊 EventBridge 规则配置为捕获 Transfer Family 事件,但事件并未发送到您的目标目的地,也未触发预期的操作。

原因

EventBridge 事件丢失可能是由以下原因造成的:

  • 事件模式配置不正确

  • 事件目标的权限问题

  • 服务限制或限制

  • 由于服务器配置,未生成事件

解决方案

要对缺失 EventBridge 的事件进行故障排除:

  1. 验证您的活动模式格式是否正确,以匹配 Transfer Family 事件:

    { "source": ["aws.transfer"], "detail-type": ["Transfer State Change"], "detail": { "serverId": ["s-1234567890abcdef0"] } }
  2. 检查您的事件目标是否具有必要的权限:

    • 对于 Lambda 目标,请确保 Lambda 函数的资源策略允许调用它 EventBridge

    • 对于 SQS 目标,请验证队列策略是否 EventBridge 允许发送消息

    • 对于 SNS 目标,请确认主题策略允许 EventBridge 向其发布内容

  3. 通过生成示例事件来测试您的规则:

    • 使用 EventBridge 控制台创建与您的模式相匹配的测试事件

    • 在你的 Transfer Family 服务器上执行应该会生成事件的操作

  4. 启用 EventBridge 规则指标以监控规则调用和失败:

    aws events put-rule --name "TransferStateChangeRule" --event-pattern '{...}' --state ENABLED --metrics-enabled
  5. 查看 CloudWatch 日志,了解与事件传送失败相关的任何错误消息