本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon EKS 的监控和事件管理如何在 AMS Accelerate 中发挥作用
生成:作为 EKS 入职监控和事件管理的一部分,AMS 会为您在托管账户中选择的 Amazon EKS 集群配置基准监控。AMS 结合使用适用于 Prometheus 的亚马逊托管服务警报管理器规则和 CloudWatch 亚马逊事件规则来配置基准监控。集群中配置了 AMS 的 Prometheus 服务器会将你的 Prometheus 指标抓取并远程写入同一地区的亚马逊托管服务 Prometheus 终端节点。当触发 Prometheus 警报管理器规则或生成事件时,基线监控配置会生成警报。 CloudWatch
聚合:AMS 通过将您的资源生成的所有警报定向到由 AMS 管理的 Amazon 简单通知服务主题,将其发送到 AMS 监控系统。
处理和影响分析:AMS 会分析警报,然后根据其潜在影响进行处理。AMS 按以下方式对警报进行分类:
具有已知客户影响的警报:对于这些警报,AMS 使用事件管理流程创建新的事件报告。
对客户影响不确定的警报:对于这些警报,AMS 会发送事件报告。在许多情况下,这些警报会要求您在 AMS 采取行动之前验证影响。对于此类警报,AMS 会发送包含详细信息的警报通知,并检查警报是否需要采取缓解措施。AMS 在通知中提供了缓解措施的选项。如果您的回复确认警报是事件,AMS 就会触发创建新的事件报告并启动事件管理流程。任何收到 “对客户没有影响” 回复或三天内完全没有回复的服务通知都将被标记为已解决。此外,相应的警报也被标记为已解决。
不影响客户的警报:如果 AMS 在评估后确定该警报对客户没有任何影响,则该警报将关闭。
AMS 责任矩阵 (RACI)
负责任、负责、咨询和知情的 AMS 或 RACI 矩阵将各种活动的主要责任分配给客户或 AMS。下表概述了客户和 AMS 在使用 Amazon EKS 监控和事件管理的应用程序中活动的责任。
R 代表负责完成任务的责任方。
A 代表责任方。
C 代表咨询;征求意见的一方,通常是作为主题专家征求意见的一方;以及与之进行双边沟通的一方。
我代表知情;通报进展情况的一方,通常只有在任务或可交付成果完成后才会被告知。
| 活动 | Customer | AMS |
|---|---|---|
针对 AMS 要求的发现 |
我 |
R |
为集群访问启用 AMS 权限 (RBAC) |
R |
C |
|
如果工作节点上还没有 Amazon S EC2 ystems Manager 代理,请将其安装在工作节点上 |
R | C |
|
根据需要在集群上部署 AMS 组件,例如 Prometheus、Prometheus Node Exporter 和 AMS 命名空间。 kube-state-metrics |
C | R |
|
在 AMS 控制平面中为 Prometheus 配置亚马逊托管服务 |
我 | R |
|
在 AMS 控制平面中配置 Prometheus 警报管理器 |
我 | R |
|
提供亚马逊托管 Grafana 模板并协助进行配置 |
C | R |
|
启用 GuardDuty EKS 审核日志监控 |
C | R |
|
启用 Amazon EKS 控制平面日志记录 |
我 | R |
|
监控 Amazon EKS 控制平面的运行状况和性能 |
我 | R |
|
监控 Amazon EKS 集群(集群、节点、工作负载、容器、API 服务器和 CoreDNS)的运行状况和性能 |
我 | R |
|
为 Amazon EKS 对警报进行分类并提供事件响应 |
我 | R |
|
在事件发生期间运行诊断命令 |
我 | R |
|
在事件期间分析日志(控制平面和 pod 日志) |
我 | R |
|
AWS 网络问题事件响应 |
我 | R |
|
回应 GuardDuty EKS 审核日志监控结果 |
我 | R |
|
尽可能为客户提供有关补救事件的行动指导 |
我 | R |