使用 CloudWatch Metrics 监控管道
CloudWatch 管道将指标发布给 AWS/Observability Admin 命名空间中的 Amazon CloudWatch。您可以使用这些指标来监控管道的运行状况、性能和数据流。
可用指标
下列各表列出了 CloudWatch 管道的可用指标。
注意
仅当值不为零时,才会发出管道指标。
核心指标
| 指标 | 说明 | 维度 | 单位 |
|---|---|---|---|
|
进入管道的日志记录量(以未压缩字节为单位) |
PipelineName |
字节 |
|
包含来源/类型细分的传入数据量 |
PipelineName、DataSource、DataType |
字节 |
|
路由到目标的数据量 |
PipelineName |
字节 |
|
包含来源/类型细分的传出数据量 |
PipelineName、DataSource、DataType |
字节 |
|
进入管道的记录数量 |
PipelineName |
计数 |
|
包含来源/类型细分的传入记录数量 |
PipelineName、DataSource、DataType |
计数 |
|
退出管道的记录数量 |
PipelineName |
计数 |
|
包含来源/类型细分的传出记录数量 |
PipelineName、DataSource、DataType |
计数 |
错误和警告指标
| 指标 | 说明 | 维度 | 单位 |
|---|---|---|---|
|
管道中的错误总数 |
PipelineName |
计数 |
|
按类型划分的详细错误计数 |
PipelineName、ErrorSource、ErrorComponent、ErrorType |
计数 |
|
遇到的警告数量 |
PipelineName |
计数 |
|
按类型划分的详细警告 |
PipelineName、WarningSource、WarningComponent、WarningType |
计数 |
|
无法处理的记录数量 |
PipelineName、DataSource、DataType |
计数 |
|
丢弃的记录数量(仅限第三方来源) |
PipelineName、DataSource、DataType |
计数 |
Dimensions
CloudWatch 管道指标使用以下维度:
- PipelineName
管道的名称
- DataSource
数据来源(AWS 服务名称或第三方来源)
- DataType
正在处理的数据类型
- ErrorSource
错误源(s3、aws.secrets、cloudwatch_logs)
- ErrorComponent
发生错误的组件(来源、接收器、扩展)
- ErrorType
遇到的错误类型
错误类型
以下错误类型在 PipelineErrorsByErrorType 中进行跟踪:
ACCESS_DENIED与权限相关的故障
ALL管道中所有错误的总计数
RESOURCE_NOT_FOUND指定的资源不存在
SOURCE_READ_FAILURE无法从来源读取
PARSE_FAILURE数据解析错误
PROCESSOR_ERRORS处理操作失败
PAYLOAD_SIZE_EXCEEDED超出数据大小限制
警告类型
管道上可能会出现以下警告类型:
THROTTLED表示发送的数据量已超过现有速率限制,从而导致某些数据点或事件丢弃或延迟,以保护系统并确保稳定性。
查看 指标
您可以使用以下方法查看 CloudWatch 管道指标:
使用 CloudWatch 控制台
-
打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch/
-
在导航窗格中,选择指标
-
选择 AWS/可观测性管理员命名空间
-
选择要查看的指标维度
使用 AWS CLI
aws cloudwatch get-metric-statistics \ --namespace "AWS/Observability Admin" \ --metric-name "PipelineBytesIn" \ --dimensions Name=PipelineName,Value=my-pipeline \ --start-time "2025-10-29T00:00:00" \ --end-time "2025-10-29T23:59:59" \ --period 300 \ --statistics Sum
创建警报
您可以根据这些指标创建 CloudWatch 警报。下面是一个创建管道错误警报的示例:
aws cloudwatch put-metric-alarm \ --alarm-name "HighPipelineErrors" \ --alarm-description "Alert on high error rate" \ --metric-name "PipelineErrors" \ --namespace "AWS/Observability Admin" \ --dimensions Name=PipelineName,Value=my-pipeline \ --period 300 \ --evaluation-periods 2 \ --threshold 10 \ --comparison-operator GreaterThanThreshold \ --statistic Sum \ --alarm-actions arn:aws:sns:region:account-id:topic-name
CloudWatch 管道指标的最佳实践
监控数据流
使用
PipelineBytesIn和PipelineBytesOut跟踪数据量监控
PipelineRecordsIn和PipelineRecordsOut跟踪记录计数注意吞吐量模式的意外变化
跟踪错误和警告
为
PipelineErrors创建警报以快速检测问题使用
PipelineErrorsByErrorType诊断特定问题监控
PipelineWarnings以尽早发现潜在问题
配置适当的阈值
根据您的预期数据模式设定阈值
考虑数据量的正常变化
设置警报阈值时需考虑高峰使用时段