调查您环境中的操作问题 - Amazon CloudWatch

调查您环境中的操作问题

创建调查

从 AWS 控制台页面创建调查

您可以从多个 AWS 控制台开始调查,包括(但不限于)CloudWatch 警报页面、CloudWatch 指标页面和 Lambda 监控页面。

从 AWS 控制台页面开始调查
  1. 账户级别,选择要调查的指标,或是警报对应的图表。

  2. 如果页面顶部有调查按钮,请选择该按钮,然后选择开始新调查

    否则,请选择该指标的垂直省略号菜单图标 Depicts the appearance of the vertical ellipsis icon on the console ,然后选择调查开始新调查

  3. 调查窗格中,在新调查标题中输入调查的名称,也可以输入有关所选指标或警报的注释。

  4. 然后选择开始调查

    调查开始。CloudWatch 调查 会扫描您的遥测数据,查找可能与这种情况相关的数据。

  5. 要将调查数据移到较大的窗格中,请选择以整页形式打开

  6. 有关在继续调查时可以采取的步骤的详细说明,请参阅 查看并继续公开调查

通过 Amazon Q 聊天创建调查

CloudWatch 调查聊天中,您可在询问涉及部署中出现的问题。问题可能是“为什么我的 Lambda 函数今天很慢?”

当您这样做时,CloudWatch 调查可能会询问后续问题并对问题进行运行状况检查。运行状况检查后,聊天将提示您是否要开始调查。

有关更多信息和更多示例问题,请参阅与 Amazon Q 聊一聊 AWS

有关在调查开始后继续调查时可以采取的步骤的详细说明,请参阅 查看并继续公开调查

通过 CloudWatch 警报操作创建调查

创建 CloudWatch 警报后,可以指定在进入“警报”状态时自动开始调查。您可以对指标警报和复合警报执行此操作。有关创建警报的更多信息,请参阅根据指标触发警报创建复合告警

查看并继续公开调查

使用本节中的步骤查看并继续现有调查

查看并继续调查
  1. 如果您尚未进入调查页面,请执行以下操作:

    1. 通过 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 控制台。

    2. 在左侧导航窗格中,依次选择 AI 操作调查

    3. 选择调查的名称。

  2. 部分显示已添加到调查发现中的项目,包括最初选择用来开始调查的指标或警报。

    右侧的窗格包括选项卡。选择建议选项卡。

  3. 建议选项卡显示 CloudWatch 调查发现的可能与调查相关的其他遥测的观测结果。还可能包括假设,这些假设是 CloudWatch 调查发现的这种情况的可能原因或根本原因。

    CloudWatch 调查会以自然语言形式同时编写观测结果和假设。

    您有多种选择:

    • 对于每个建议,您可以选择接受丢弃

      当您选择接受时,建议将添加到部分,CloudWatch 调查将使用此信息指导进一步的扫描和建议。

      如果您选择丢弃,则建议将移至已丢弃选项卡。

    • 对于每个观测结果类型的建议,您可以选择在建议选项卡中展开图表,或者在 CloudWatch 控制台中将其打开以查看其更多详细信息。

    • 其中一些观测结果可能是 CloudWatch 调查在调查中运行的 CloudWatch Logs Insights 查询的结果。当观测结果是 CloudWatch Logs Insights 查询结果时,查询本身将显示为观测结果的一部分。您可以编辑查询并重新运行。为此,请选择结果旁边的垂直省略号菜单图标 An example of a CloudWatch overview home page, showing alarms and their current state, and examples of other metrics graph widgets that might appear on the overview home page. ,然后选择在 Logs Insights 中打开。有关更多信息,请参阅使用 CloudWatch Logs Insights 分析日志数据

    • 如果您知道某项 AWS 服务中的遥测可能适用于此调查,则可以访问该服务的控制台,将遥测添加到调查中。例如,要向调查中添加 Lambda 指标,可以执行下列操作:

      1. 打开 Lambda 控制台。

      2. 监控部分中,找到该指标。

      3. 打开指标的垂直省略号上下文菜单 An example of a CloudWatch overview home page, showing alarms and their current state, and examples of other metrics graph widgets that might appear on the overview home page. ,依次选择调查添加到调查,然后在调查窗格中选择调查的名称。

    • 当您在建议选项卡中查看假设时,可以选择显示推理来显示 CloudWatch 调查用于生成假设的数据。

    • 您可以选择已丢弃选项卡并查看之前已丢弃的建议。要将其中一个添加到调查发现中,请选择还原到调查发现

    • 要为调查发现添加注释,请在窗格中选择新建注释。然后输入您的注释并选择添加

  4. 当您向区域添加假设时,可能会显示显示建议的操作。如果是,则选择此选项会显示您可以执行的可能操作,前提是该问题假设是正确的。可能的操作包括:

    • 文档建议是指向 AWS 文档的链接,可以帮助您了解正在处理的问题以及如何解决该问题。要查看建议的文档,请选择其查看链接

    • 运行手册建议是利用 Systems Manager Automation 中预定义的运行手册的建议。每个运行手册都定义了在 AWS 资源上执行任务的许多步骤。

      重要

      执行自动化运行手册需要付费。但是,CloudWatch 调查可让您预览建议的运行手册所执行的操作,从而使您有机会更好地评估是否执行运行手册。有关自动化定价的信息,请参阅 AWS Systems Manager 的自动化定价

      有关继续执行运行手册操作的信息,请在继续执行本程序中的以下步骤之前参阅 为 CloudWatch 调查查看并执行建议的运行手册补救措施

  5. 您认为找到了问题的根本原因时,可以选择概述选项卡,然后在调查摘要部分选择生成。然后,CloudWatch 调查会以自然语言汇总由调查得出的重要调查发现和假设。

    即使已生成摘要报告,您仍可继续深入调查。若您选择这样做,并在调查过程中添加或删除调查发现,可随时返回概览选项卡,重新选择生成按钮,以获取更新后的摘要。

  6. 要结束调查,请选择结束调查,然后选择添加最后注释。然后选择保存

    调查状态更改为已存档。您可以通过打开调查页面并选择重新开始调查来重新开始已存档的调查。

    我们建议您不要无限期地将调查置于打开状态,因为只要调查处于打开状态,与调查相关的警报状态转换就会一直添加到调查中。

注意

在某些时候,您可能会看到分析已完成。调查已结束显示在区域上方。如果您随后向调查发现添加更多遥测数据,则此消息会发生变化,CloudWatch 调查会根据您添加到调查发现中的新数据重新开始扫描您的遥测数据。

为 CloudWatch 调查查看并执行建议的运行手册补救措施

当您向活动调查的区域添加假设时,CloudWatch 调查可能会显示显示建议的操作。一个建议的操作可能是查看文档,其中包含可帮助您手动修复问题的信息。

另一个建议可能是使用自动化运行手册尝试自动解决问题。自动化是 Systems Manager(另一项 AWS 服务)中的一项功能。自动化运行手册定义了要在您选择的资源上运行的一系列步骤或操作。每个运行手册都旨在解决一个特定的问题。运行手册可以满足各种操作需求:创建、维修、重新配置、安装、故障排除、修复、复制等。有关自动化的更多信息,请参阅 与 AWS Systems Manager Automation 集成

开始前的准备工作

在调查中使用自动化运行手册之前,请注意以下重要事项:

  • 选择执行运行手册会产生费用。有关更多信息,请参阅 AWS Systems Manager 定价

  • 根本原因和运行手册建议由自动推理和生成式人工智能服务提供支持。

    重要

    您对执行运行手册步骤所产生的操作以及选择在运行手册执行期间输入的参数值负责。您可能需要编辑建议的运行手册,进而确保运行手册按预期运行。有关更多信息,请参阅《AWS 负责任的 AI 政策

  • 根据运行手册的不同,您可能需要在运行手册的输入参数中输入值,然后才能运行执行。

  • 运行手册使用分配给操作员的 IAM 权限执行。如有必要,请使用不同的 IAM 权限登录,执行运行手册。除了正在执行的操作的权限外,您还需要其他 Systems Manager 权限才能执行运行手册步骤。有关更多信息,请参阅《AWS Systems Manager 用户指南》中的设置自动化

审核并执行针对 CloudWatch 调查的建议运行手册操作
  1. 要查看有关建议运行手册的信息,请选择审核获取有关如何执行运行手册步骤的信息。

    在调查详细信息页面上,选择建议

  2. 建议窗格中,根据系统对所调查问题的分析,审核假设列表。

    对于每个假设,您可以选择以下选项:

    • 显示推理 – 查看有关系统为何生成假设的更多信息。

    • 查看操作 – 查看问题的建议操作。并非所有假设都将包括建议的操作。

    • 接受 – 接受假设并将其添加到调查的部分。

      注意

      接受假设并不会自动运行关联的运行手册解决方案。在接受假设之前,您可以查看建议的运行手册,但必须接受该假设才能执行运行手册。

    • 丢弃 – 拒绝假设,不再使用。

  3. 选择查看操作后,在建议的操作窗格中,查看为解决该问题可以采取的建议操作列表。建议的操作可能包括以下一项或多项:

    • AWS 知识文章 – 提供有关手动解决问题可以采取的步骤的信息,以及指向更多信息的链接。

    • AWS 文档 – 提供指向与问题相关的用户文档主题的链接。

    • AWS 拥有的运行手册 – 列出一个或多个由 AWS 管理的自动化运行手册,您可以运行这些运行手册来尝试解决问题。

    • 您拥有的运行手册 – 列出由您或您的账户或组织中的其他人创建的一个或多个自定义自动化运行手册,您可以运行这些运行手册来尝试解决问题。

      注意

      系统通过评估自定义运行手册中的关键字,然后将其与正在调查的问题相关的术语进行比较,自动生成此运行手册列表。

      更多的关键字匹配意味着特定的自定义运行手册在您拥有的运行手册列表中出现的位置更高。

  4. 审核假设后,您可以进一步检查建议的具体操作并通过选择了解更多阅读相关文档。您也可以选择审核详细信息来检查 AWS 和您拥有的建议运行手册。

  5. 选择审核运行手册的详细信息时,请执行以下操作:

    1. 对于运行手册描述,请审核内容,其中概述了运行手册为修复正在调查的问题可以采取的措施。选择查看步骤,可视化运行手册的工作流程并深入了解各个步骤的详细信息。

    2. 对于输入参数,请为运行手册要求的任何参数指定值。这些参数因运行手册而异。

    3. 对于执行预览,请仔细审核信息。此信息说明了当您选择执行运行手册时的范围和影响。

      执行预览内容提供以下信息:

      • 运行手册操作将在多少个账户和区域中发生。

      • 将要采取的操作类型以及每种类型的数量。

        操作类型包括:

        • Mutating:运行手册步骤将通过创建、修改或删除资源的操作对目标进行更改。

        • Non-Mutating:运行手册步骤将检索有关资源的数据,但是不对其进行更改。此类别通常包括 DescribeListGet 和类似的只读 API 操作。

        • Undetermined:未确定的步骤将调用由另一个编排服务运行的执行,如 AWS Lambda、AWS Step Functions 或 Run Command(AWS Systems Manager 的一项功能)。未确定的步骤可能还会调用第三方 API 或者运行 Python 或 PowerShell 脚本。Systems Manager Automation 无法检测到编排流程或第三方 API 执行的结果,所以无法对其进行评估。必须手动审查这些步骤的结果以确定其影响。

        有关支持的操作及其影响类型的信息,请参阅《AWS Systems Manager 用户指南》中的运行手册操作的修复影响类型

    4. 请仔细查看预览信息,然后再决定是否继续。

      此时,您可以选择以下操作之一:

      • 停止,不要执行运行手册。

      • 在执行运行手册之前更改输入参数。

      • 使用您已经选择的选项执行运行手册。

    重要

    选择执行运行手册会产生费用。有关更多信息,请参阅 AWS Systems Manager 定价

  6. 如果要执行运行手册,请选择执行

    如果您已经接受了该假设,则执行将运行。

    如果您尚未接受该假设,则在执行运行之前,会出现一个对话框提示您接受该假设。

为运行手册选择执行后,该操作将添加到调查的窗格中。通过调查,您可以监控调查发现中指标中的新数据,以查看运行手册操作是否正在纠正问题。