事件管理 - AMS 高级用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

事件管理

事件是指影响您的托管环境的 AWS 服务 性能问题,由 AWS Managed Services (AMS) 或您决定。AMS 团队识别的事件首先作为 “事件” 接收:通过监控捕捉到的系统状态变化。如果突破了配置的阈值,则该事件会触发警报,也称为警报。AMS 运营团队确定事件是非影响性事件、事件(服务中断或降级)还是问题(一个或多个已解决事件的根本原因)。

AMS 团队还会通过 支持 中心接收您发现的事件,或者使用带有服务代码sentinel-report-incidentAWS Support API 以编程方式接收事件。

AMS 运营团队收到您的事件后,会对其进行审查,以确保该事件不会被更好地归类为服务请求。如果应将其归类为服务请求,则会立即将其重新分类,AMS 服务请求团队接管并通知您。如果接收操作员能够解决事件,则会采取措施立即解决事件。AMS 操作员查阅内部文档以获得解决方案,并在需要时将事件上报给其他支持资源,直到事件得到解决。要随时了解事件解决过程的每个步骤,请务必填写 “抄送电子邮件” 选项,而且,如果您要通过联盟进行连接,请在点击 AMS 发送的电子邮件中的链接之前登录。问题解决后,AMS 运营团队将记录事件和解决方案,以备将来使用。

如果事件解决方案需要更改基础架构,则可能需要进行安全审查。可能需要安全审查的基础设施变更包括与 IAM、基于资源的策略或风险批准相关的更改。此类事件需要 AMS 运营工程师在进行更改之前创建 RFC,并且需要您批准该 RFC。例如,如果事件解决方案需要更新 IAM 策略,则将进行 AMS 安全审查,然后 AMS 运营工程师将使用管理 | 高级堆栈组件 | 身份和访问管理 (IAM) | 更新实体或策略变更类型 (ct-27tuth19k52b4) 创建 RFC,然后等待您批准 RFC 后再继续操作。

注意

AMS 现在允许在不经过 RFC 批准的额外步骤的情况下进行基础设施变更的事故解决方案。如果解决事件所需的更改不需要安全审查(更改与 IAM、基于资源的政策或风险批准无关),AMS 可以根据您在事件中获得的批准进行更改,而无需在 RFC 中单独获得批准。

有关事件管理术语的定义,请参阅 AMS 关键术语

要了解事件的升级路径,请参阅获取帮助

有关 AMS 对事件的响应的描述,请参阅 AMS 事件响应