**帮助改进此页面** 

要帮助改进本用户指南，请选择位于每个页面右侧窗格中的**在 GitHub 上编辑此页面**链接。

# 使用可观测性仪表板监控您的集群
<a name="observability-dashboard"></a>

Amazon EKS 控制台包含一个可观测性仪表板，可供您了解集群的性能。其提供的信息有助于快速检测、排除故障和修复问题。在**运行状况和性能摘要**中选择一项即可打开可观测性控制面板的相应部分。此摘要包含在多个地方，包括**可观测性**选项卡。

可观测性控制面板分为几个选项卡。

## 摘要
<a name="observability-summary"></a>

**运行状况和性能摘要**列出了不同类别项目的数量。每个数字都充当指向可观测性控制面板某个位置的超链接，其中包含该类别的列表。

## 集群运行状况
<a name="observability-cluster-health"></a>

 **集群运行状况**提供了需要注意的重要通知，您可能需要对其中部分通知尽快采取措施。通过此列表，您可以查看描述和受影响的资源。集群运行状况包括两个表：**运行状况问题**和**配置见解**。要刷新**运行状况问题**的状态，请选择刷新按钮（↻）。**配置见解**每 24 小时自动更新一次，无法手动刷新。

有关**运行状况问题**的更多信息，请参阅[集群运行状况常见问题解答和错误代码以及解析路径](troubleshooting.md#cluster-health-status)。有关**配置见解**的更多信息，请参阅[利用集群见解为 Kubernetes 版本升级做好准备并对错误配置进行问题排查](cluster-insights.md)。

## 控制面板监控
<a name="observability-control-plane"></a>

**控制面板监控**选项卡分为三个部分，每个部分均可帮助您监控集群的控制面板并对其进行故障排除。

### 指标
<a name="observability-metrics"></a>

对于 Kubernetes `1.28` 及更高版本的集群，**指标**部分会显示为各种控制面板组件收集的多个指标的图表。

您可以通过在该部分的顶部进行选择来设置每个图表 X 轴所用的时间段。您可以使用刷新按钮（↻）刷新数据。对于每个单独的图表，垂直省略号按钮（⋮）会打开一个菜单，其中包含来自 CloudWatch 的选项。

这些指标以及更多指标会自动作为 `AWS/EKS` 命名空间下的 CloudWatch 中的基本监控指标提供。有关更多信息，请参阅《Amazon CloudWatch 用户指南》**中的[基本监控和详细监控](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-metrics-basic-detailed.html)。要获取更多详细的指标、可视化和洞察，请参阅《Amazon CloudWatch 用户指南》**中的 [Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)。如果更喜欢基于 Prometheus 的监控，请参阅 [使用 Prometheus 监控集群指标](prometheus.md)。

下表列出了可用指标。


| 指标 | 说明 | 
| --- | --- | 
|  APIServer 请求  |  每分钟向 API 服务器发出的请求。  | 
|  APIServer 请求总数 4XX  |  发生 HTTP 4XX 响应代码（客户端错误）的 API 服务器请求数。  | 
|  APIServer 请求总数 5XX  |  发生 HTTP 5XX 响应代码（服务器端错误）的 API 服务器请求数。  | 
|  APIServer 请求总数 429  |  发生 HTTP 429 响应代码（请求过多）的 API 服务器请求数。  | 
|  存储大小  |  存储数据库 (`etcd`) 的大小。  | 
|  调度器尝试  |  尝试按结果“不可调度”、“错误”和“已调度”调度容器组（pod）的次数。  | 
|  待处理容器组（pod）  |  按队列类型“活跃”、“退避”、“不可调度”和“受限”分列的待处理容器组（pod）数量。  | 
|  API 服务器请求延迟  |  API 服务器请求的延迟。  | 
|  API 服务器当前的传输中请求  |  当前对 API 服务器的传输中请求。  | 
|  Webhook 请求  |  每分钟 Webhook 请求数。  | 
|  Webhook 请求拒绝  |  被拒绝的 Webhook 请求数。  | 
|  Webhook 请求延迟 P99  |  外部第三方 Webhook 请求的第 99 个百分位延迟。  | 

### CloudWatch Log Insights
<a name="observability-log-insights"></a>

**CloudWatch Log Insights** 部分根据控制面板审计日志显示各种列表。需要打开 Amazon EKS 控制面板日志才能使用此功能，您可以在**查看 CloudWatch 中的控制面板日志**部分执行此操作。

经过足够的时间来收集数据后，您可以**运行所有查询**，也可以选择**运行查询**一次获取单个列表。每当您运行查询时，CloudWatch 均会产生额外费用。选择要在该部分顶部查看结果的时间段。如果您想对任何查询进行更高级的控制，可以选择**在 CloudWatch 中查看**。这将允许您根据需求更新 CloudWatch 中的查询。

有关更多信息，请参阅《Amazon CloudWatch Logs 用户指南》中的[使用 CloudWatch Logs Insights 分析日志数据](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html)。

### 在 CloudWatch 中查看控制面板日志
<a name="observability-cp-logs"></a>

选择**管理日志记录**即可更新可用的日志类型。启用日志记录后，日志需要几分钟才能显示在 CloudWatch Logs 中。经过足够的时间，选择本节中的任何**查看**链接即可导航到适用的日志。

有关更多信息，请参阅 [将控制面板日志发送到 CloudWatch Logs](control-plane-logs.md)。

## 集群见解
<a name="observability-cluster-insights"></a>

**升级洞察**表既显示了问题又建议了纠正措施，从而加快了升级到新版 Kubernetes 的验证过程。Amazon EKS 会根据可能影响 Kubernetes 版本升级的问题列表自动扫描集群。**升级洞察**表列出了 Amazon EKS 针对该集群执行的洞察检查及其相关状态。

根据对 Kubernetes 项目变更以及与新版本相关的 Amazon EKS 服务变更的评估，Amazon EKS 维护并定期刷新待执行的洞察检查列表。Amazon EKS 控制台自动刷新每个洞察的状态，这可以在上次刷新时间列看到。

有关更多信息，请参阅 [利用集群见解为 Kubernetes 版本升级做好准备并对错误配置进行问题排查](cluster-insights.md)。

## 节点运行状况问题
<a name="observability-node-health-issues"></a>

Amazon EKS 节点监控代理会自动读取节点日志以检测运行状况问题。无论使用哪种自动修复设置，节点监控代理都会报告所有节点运行状况问题，以便您可以根据需要进行调查。如果列出的问题类型没有描述，则可以在其弹出框元素中阅读描述。

刷新页面后，所有已解决的问题都将从列表中消失。如果启用了自动修复，则可能会暂时看到某些无需您执行任何操作即可解决的运行状况问题。不支持自动修复的问题可能需要您手动操作，具体取决于其类型。

要报告节点运行状况问题，集群必须使用 Amazon EKS 自动模式或安装了节点监控代理附加组件。有关更多信息，请参阅 [检测节点运行状况问题并启用自动节点修复](node-health.md)。

## EKS 功能
<a name="observability-capabilities"></a>

**功能**部分显示集群中 EKS 功能资源的状态和运行状况。可以在此处监控集群中这些功能及其托管式 Kubernetes 资源的运行状况和状态通知。刷新页面后，所有已解决的问题都将从列表中消失。

有关更多信息，请参阅 [使用功能资源](working-with-capabilities.md)。