通过“服务”页面查看整体服务活动和运行状况 - Amazon CloudWatch

通过“服务”页面查看整体服务活动和运行状况

通过“服务”页面查看已为 Application Signals 启用的服务列表。您还可以查看运行指标,并快速浏览哪些服务具有运行不正常的服务级别指标(SLI)。应深入调查性能异常,并确定操作问题的根本原因。要查看此页面,请打开 CloudWatch 控制台,然后选择左侧导航窗格的 Application Signals部分下的服务

对于未埋点服务,“服务概览”页面显示的信息有限,并包含醒目的行动号召,以启用 Application Signals 埋点。

探索服务的运行状况指标

“服务”页面顶部包括一个整体服务运行状况图和几个表格,这些表格显示按故障率排名在前的服务和服务依赖项以及服务列表。左侧的“服务”图表显示在当前页面级时间筛选条件期间,运行正常或运行不正常的服务级别指标(SLI)的服务数量明细。SLI 可以监控延迟、可用性和其他运行指标。查看图表旁边两个表格中按故障率排名在前的服务。选择任一表格中的服务名称,打开服务详细信息页面,其中显示详细的服务操作信息。选择依赖项路径以在其详细信息页面上查看服务依赖项的详细信息。

即使在页面右上角选择更长时间段的筛选条件,这两个表格也最多只能显示过去三个小时内的信息。

使用动态服务分组时,运行状况指标会自动聚合每个组内所有服务的数据。这可提供:

  • 服务组的整合故障率

  • 组级别 SLI 运行状态

  • 性能指标汇总,可帮助识别有问题的服务集群

  • 快速确定在事件发生期间需要立即关注哪些组

CloudWatch 服务热门图表

通过“服务”表格监控运行状况

“服务”表格显示已为 Application Signals 启用的服务列表。选择启用 Application Signals,打开设置页面并开始配置服务。有关更多信息,请参阅启用 Application Signals

通过从筛选条件文本框中选择一个或多个属性来筛选“服务”表格,可便于查找所需内容。选择各个属性时,系统将引导您选择筛选条件。您将在筛选条件文本框下看到完整的筛选条件。随时选择清除筛选条件以移除表格筛选条件。

高级筛选选项允许您:

  • 按服务组筛选(包括默认分组和自定义分组)

  • 按最近的部署活动筛选

  • 按平台筛选

  • 按 SLI 运行状况筛选

  • 按账户 ID 筛选(在跨账户可观测性设置中)

  • 按埋点状态筛选(已埋点与未埋点)

  • 按环境筛选

  • 按服务运行状况筛选

CloudWatch 服务表格

对于未埋点服务,“服务概览”页面显示的信息有限,并包含醒目的行动号召,以启用 Application Signals 埋点。未埋点服务即使尚未配置 Application Signals,也会显示在“服务”表中,这有助于您发现可观测性覆盖范围的差距,并根据服务在架构中的位置,确定接下来待埋点服务的优先级。

选择表格中任何服务名称,查看包含服务级别指标、操作和其他详细信息的服务详细信息页面。如果您已将服务的底层计算资源与 AppRegistry 中的应用程序或 AWS Management Console 主页上的“应用程序”卡相关联,则可选择应用程序名称,以在 myApplications 控制台页面中显示应用程序详细信息。对于托管在 Amazon EKS 中的服务,选择托管在列中的任意链接,查看 CloudWatch Container Insights 中的集群、命名空间或工作负载。对于在 Amazon ECS 或 Amazon EC2 上运行的服务,将显示环境值。

表格显示了每项服务的服务级别指标(SLI)状态。选择服务的 SLI 状态以显示弹出窗口,该弹出窗口包含指向任何运行不正常的 SLI 的链接,以及用于查看该服务的所有 SLO 的链接。

SLI 运行不正常的服务

如果尚未为某项服务创建 SLO,请选择 SLI 状态列中的创建 SLO 按钮。要为任何服务额外创建 SLO,请选择服务名称旁边的选项按钮,然后选择表格右上角的创建 SLO。创建 SLO 时,您可以一目了然地看到运行正常和运行不正常的服务和操作。有关更多信息,请参阅服务级别目标(SLO)

服务概览

从“服务”表中选择服务后,将打开“服务概览”页面。此页面提供服务运行状况和性能指标的全面视图。概述部分显示了以下摘要指标:

  • 总操作

  • 服务依赖项

  • 金丝雀监控状态

  • RUM 客户端数据

这些指标可让您即时了解服务的当前状态。

您可以使用一系列图表可视化一段时间内的关键运营绩效指标。要分析趋势并确定影响服务运行状况的潜在问题,请调整时间筛选条件。所有图表都会自动更新以反映所选时间段的数据。

“审计调查发现”部分会自动检测并显示服务行为的关键问题,因此您无需手动调查。Application Signals 会分析您的应用程序以报告重要的观测结果和潜在问题,从而简化根本原因分析。这些自动化分析结果会整合相关跟踪数据,无需多次单击跳转即可查看。审计系统可帮助团队快速定位问题及其深层诱因,实现更快速解决问题。

您可以使用“变更事件”部分来确定最近的部署或配置更改如何影响服务行为。Application Signals 会自动处理 CloudTrail 事件,以跟踪应用程序中的变更事件。监控服务及其依赖项的配置和部署事件,为操作分析和问题排查提供即时背景信息。Application Signals 会自动将部署时间与性能变化相关联,帮助您快速确定最近的部署是否导致了服务问题。

服务概览