View a markdown version of this page

Amazon EKS 的监控和事件管理如何在 AMS Accelerate 中发挥作用 - AMS 加速用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon EKS 的监控和事件管理如何在 AMS Accelerate 中发挥作用

生成:作为 EKS 入职监控和事件管理的一部分,AMS 会为您在托管账户中选择的 Amazon EKS 集群配置基准监控。AMS 结合使用适用于 Prometheus 的亚马逊托管服务警报管理器规则和 CloudWatch 亚马逊事件规则来配置基准监控。集群中配置了 AMS 的 Prometheus 服务器会将你的 Prometheus 指标抓取并远程写入同一地区的亚马逊托管服务 Prometheus 终端节点。当触发 Prometheus 警报管理器规则或生成事件时,基线监控配置会生成警报。 CloudWatch

聚合:AMS 通过将您的资源生成的所有警报定向到由 AMS 管理的 Amazon 简单通知服务主题,将其发送到 AMS 监控系统。

处理和影响分析:AMS 会分析警报,然后根据其潜在影响进行处理。AMS 按以下方式对警报进行分类:

  • 具有已知客户影响的警报:对于这些警报,AMS 使用事件管理流程创建新的事件报告。

  • 对客户影响不确定的警报:对于这些警报,AMS 会发送事件报告。在许多情况下,这些警报会要求您在 AMS 采取行动之前验证影响。对于此类警报,AMS 会发送包含详细信息的警报通知,并检查警报是否需要采取缓解措施。AMS 在通知中提供了缓解措施的选项。如果您的回复确认警报是事件,AMS 就会触发创建新的事件报告并启动事件管理流程。任何收到 “对客户没有影响” 回复或三天内完全没有回复的服务通知都将被标记为已解决。此外,相应的警报也被标记为已解决。

  • 不影响客户的警报:如果 AMS 在评估后确定该警报对客户没有任何影响,则该警报将关闭。

AMS 责任矩阵 (RACI)

负责任、负责、咨询和知情的 AMS 或 RACI 矩阵将各种活动的主要责任分配给客户或 AMS。下表概述了客户和 AMS 在使用 Amazon EKS 监控和事件管理的应用程序中活动的责任。

  • R 代表负责完成任务的责任方。

  • A 代表责任方。

  • C 代表咨询;征求意见的一方,通常是作为主题专家征求意见的一方;以及与之进行双边沟通的一方。

  • 代表知情;通报进展情况的一方,通常只有在任务或可交付成果完成后才会被告知。

活动 Customer AMS

针对 AMS 要求的发现

R

为集群访问启用 AMS 权限 (RBAC)

R

C

如果工作节点上还没有 Amazon S EC2 ystems Manager 代理,请将其安装在工作节点上

R C

根据需要在集群上部署 AMS 组件,例如 Prometheus、Prometheus Node Exporter 和 AMS 命名空间。 kube-state-metrics

C R

在 AMS 控制平面中为 Prometheus 配置亚马逊托管服务

R

在 AMS 控制平面中配置 Prometheus 警报管理器

R

提供亚马逊托管 Grafana 模板并协助进行配置

C R

启用 GuardDuty EKS 审核日志监控

C R

启用 Amazon EKS 控制平面日志记录

R

监控 Amazon EKS 控制平面的运行状况和性能

R

监控 Amazon EKS 集群(集群、节点、工作负载、容器、API 服务器和 CoreDNS)的运行状况和性能

R

为 Amazon EKS 对警报进行分类并提供事件响应

R

在事件发生期间运行诊断命令

R

在事件期间分析日志(控制平面和 pod 日志)

R

AWS 网络问题事件响应

R

回应 GuardDuty EKS 审核日志监控结果

R

尽可能为客户提供有关补救事件的行动指导

R