本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
统一运营入门:加入关键警报以实现快速事件管理
为了帮助您快速通知您重大事件,请完成以下步骤,将警报加入 AWS 事件检测和响应
定义和配置您的关键警报,以实现快速事件管理。有关详细信息,请参阅《事件检测和响应用户指南》中的 “事件检测和响应” 中的定义和配置警报。
-
有关使用 Amazon 设置警报的步骤 CloudWatch,请参阅《事件检测和响应用户指南》中的 “事件检测和响应” 中的定义和配置警报。有关各种关键警报类型的 AWS 建议 AWS 服务,请参阅事件检测和响应 (IDR)
。如果您想自动 AWS 为已标记的 AWS 资源创建关键 AWS 警报,请联系您的 AWS 统一运营团队。 -
要重定向或接收来自直接与 Amazon EventBridge 集成的
第三方 APM 工具(例如、等)的关键警报 DataDog NewRelic,请参阅《AWS 事件检测和响应用户指南》中的 “从 APMs 与亚马逊直接集成的警报” EventBridge 中获取与亚马逊直接集成的警报。您必须部署一组 AWS 资源(AWS Lambda 和 Amazon EventBridge 事件总线规则)来转换警报(事件)并将其重定向到 AWS 事件检测和响应。您的 AWS 统一运营团队可以帮助提供安装这些资源的 CloudFormation 模板。 -
通过未与 Amazon 直接集成的第三方 APM 工具(例如 EventBridge、等)从您的自定义监控工具重定向或接收 DataDog关键警报。 NewRelic有关更多信息,请参阅《AWS 事件检测和响应用户指南》 EventBridge中的 “接收与 Amazon 直接集成的警报”。 APMs 您必须部署一组 AWS 资源(API Gateway AWS Lambda 函数和 Amazon EventBridge 事件总线规则)来转换警报(事件)并将其重定向到 AWS 事件检测和响应。您的 AWS 统一运营团队可以帮助提供安装这些资源的 CloudFormation 模板。
-
-
提供工作负载架构详细信息、联系人信息以及有关关键警报缓解措施的运行手册信息。为此,请完成以下步骤:
下载并填写每个关键工作负载或应用程序AWS 的事件检测和响应工作负载入职调查表,以及与每个独特工作负载相关的警报摄取调查表。
这些问卷中的信息可帮助 AWS 团队制定事件补救操作手册。通过本操作手册,可以采取适当的措施,在关键警报导致业务停机之前对其进行快速故障排除和修复。有关示例和示例信息,请参阅AWS 事件检测和响应中的工作负载入和警报摄取问卷。
为 AWS 事件检测和响应提供机载关键警报的访问权限
在 AWS 账户 运行关键工作负载时部署
AWSServiceRoleForHealth_EventProcessor服务相关角色 (SLR),由 AWS 事件管理团队进行监控。有关更多信息,请参阅为 AWS 事件检测和响应提供警报接收权限。注意
为了帮助你完成大规模的入职培训 AWS 账户, AWS 可以为你提供一个 AWS Command Line Interface 脚本来快速跟踪这款 SLR 的配置。
(可选)如果您的警报在 Amazon CloudWatch 中,请确保用于警报测试(上线前)的 AWS Identity and Access Management 用户或角色在运行关键工作负载的用户或角色中拥有
cloudwatch:SetAlarmStateIAM 权限。 AWS 账户 这是入职后的警报测试(比赛日)所必需的。有关更多信息,请参阅AWS 事件检测和响应中的测试已加载的工作负载。
创建 AWS 支持 案例以订阅工作负载,以实现快速事件管理。请注意,您的 AWS 账户 入站快速事件管理已自动启用,这意味着您可以通过 Support Center Console、或 AWS SDK 向统一运营事件检测和响应队列提出案例 AWS Command Line Interface,以便快速采取行动。 AWS 要主动监控出站 AWS 支持 案例并创建事件,请为您的关键工作量创建 AWS 支持 案例。为此,请完成以下步骤:
登录 AWS Support Center Console
,选择 “创建案例”,然后选择 “技术支持”。 对于 “服务”,选择 “事件检测和响应”。
对于类别,选择载入新工作负载。
对于 “严重性”,选择 “一般指导”。
附上您在上一步中填写的工作量和警报调查表。