View a markdown version of this page

监控性能 - Amazon Quick

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控性能

Amazon Quick Automate 提供全面的监控功能,可帮助您跟踪性能、审计自动化并对其进行故障排除。本节介绍如何使用 Amazon Quick Automate 中的性能监控功能。

先决条件

在使用绩效控制面板之前,您需要:

  • 主动自动化-必须至少运行一个自动化才能查看指标

  • 自动化组访问权限-查看要监控的自动化组的权限

自动化摘要仪表板

“自动化” 选项卡提供了整个自动化产品组合的高级指标和关键绩效指标。

自动化摘要图表

仪表板包括三个主要的性能可视化效果:

  • 自动化分布-显示按自动化组组织的已部署自动化的数量,帮助您了解整个组织的自动化足迹

  • 成功率-显示成功完成的案例与遇到异常的案例的百分比,从而深入了解自动化的可靠性

  • 节省的时间-根据成功完成的案例乘以为每个自动化项目配置的预计节省时间,计算节省的总时长

自动化详细信息表

每个自动化都列出了关键指标和状态信息:

  • 自动化名称-已部署自动化的名称和版本

  • 最新运行-最近的执行状态和时间戳

  • 案例指标-已处理的案例数量,细分为:

    • 成功完成案例

    • 存在业务异常的案例

    • 存在系统异常的案例

  • 任务-自动化创建的人机在环任务的数量

运行仪表板

“运行” 选项卡提供了对单个自动化执行及其结果的详细可见性。

运行状态

自动化可以处于以下运行状态之一:

  • 等待-自动化已排队,正在等待可用的系统资源开始执行。这通常是一个短暂的过渡状态。

  • 进行中-自动化正在积极执行其配置的步骤。您可以通过日志监控实时进度。

  • 已完成-自动化已成功完成所有步骤。

  • 失败-自动化遇到了无法恢复的错误,因此停止了执行。日志中提供了详细的错误信息。

  • 已停止-用户使用 “退出” 或 “终止” 操作手动中断了自动化执行。

注意

未完成的运行计数包括等待和进行中。

运行详细信息表

每次运行都通过以下列提供全面的执行信息:

  • 状态-当前运行状态(如运行状态类型中所定义)

  • 自动化-正在运行的自动化的名称

  • 版本-已运行自动化的特定版本号

  • 开始时间-自动化运行的开始时间

  • 结束时间-自动化完成或停止的时间

  • 持续时间-自动化的总运行时间

  • 案例指标-已处理的案例数量,细分为:

    • 成功完成案例

    • 存在业务异常的案例

    • 存在系统异常的案例

  • 任务-运行中创建的人机在环任务数

注意

首次导航到页面时会刷新数据。单击 “刷新” 按钮可随时提取最新数据。

案例仪表板

“案例” 选项卡允许在单个案例记录的整个生命周期中对其进行跟踪。

案例图

仪表板包括两个主要的性能可视化效果:

  • 创建的案例总数-显示一段时间内创建的案例数量,帮助您了解自动化数量。

  • 热门例外-显示前 5 个异常原因以及每个原因的相对数量,帮助您确定优化工作的优先顺序,以提高成功率。

案例状态

案例可能处于以下处理状态之一:

  • 准备就绪-案例已创建,正在等待提货处理。这是所有新病例的初始状态。

  • 处理@@ -自动化系统正在积极处理此案件。您可以通过日志监控实时进度。

  • 待解决 ——案例正在等待人工在环任务完成后才能继续处理。任务解决后,案例将恢复为 “就绪” 状态。

  • 成功-案例已完成,没有任何例外。

  • 失败-案例遇到了以下异常类型之一:

    • 业务异常-该案例遇到了已处理的业务规则违规行为并停止了处理。日志中提供了详细的异常信息。

    • 系统异常-问题出现技术错误并停止处理。日志中提供了详细的错误信息。

有关案例处理和编排模式的详细信息,请参阅编排操作。

搜索和筛选

性能控制面板包括所有监控视图中都可用的搜索和筛选功能,可帮助您查找特定信息。筛选依据:

  • 时间范围

  • Status

  • 自动化组

  • 自动化

注意

您也可以在案例页面上按参考名称或异常原因进行搜索。

环境选择

在查看以下指标之间切换:

  • 测试-来自开发环境中自动化测试的数据

  • 已部署-来自已部署自动化的数据

注意

在更改之前,您选择的环境将应用于所有仪表板选项卡。

CloudWatch

亚马逊在 Amazon Quick Automate 中为您的自动化 CloudWatch 提供了监控和可观察性功能。本节介绍中提供的指标 CloudWatch、如何查看指标以及如何为这些指标设置警报。

先决条件

IAM 角色和权限

要授予 CloudWatch 访问权限,请遵循最低权限原则:

  • 创建 IAM 角色或群组,最好使用 AWS IAM Identity Center。

  • 附加 AWS 托管策略 CloudWatchFullAccess 以获得全面的监控和警报功能。

  • (可选) CloudWatchLogsReadOnlyAccess 在没有删除权限的情况下添加日志查询。

  • 将用户分配到此角色或组,以便无需更广泛的管理权限即可进行 CloudWatch 操作。

有关详细的分步说明,请参阅中的入门设置 CloudWatchCloudWatch 权限指南

正在访问 CloudWatch

  • 导航到 AWS 管理控制台。

  • CloudWatch 在服务搜索栏中输入。

  • CloudWatch 从结果中进行选择以打开 CloudWatch 控制台。

访问 Amazon 快速自动化的 CloudWatch 指标

  • 打开控制 CloudWatch 台。

  • 在左侧导航窗格中,选择指标所有指标

  • 选择服务命名空间QuickSight

  • 选择相关维度(AutomationGroupIdAutomationId)以查看指标。

  • 使用搜索栏按指标名称或维度进行搜索或筛选。

有关更多详细信息,请参阅CloudWatch 指标文档

可用指标

Amazon Quick Automate 将指标发布到QuickSight命名空间 CloudWatch 下方。指标按AutomationIdAutomationGroupId维度分组。

注意

CloudWatch 是一项区域服务。要查看指标,请确保您位于运行自动化的同一 AWS 区域。

AutomationId 指标

这些指标跟踪个人的自动化绩效:

  • FailedAutomationRunCount-执行期间失败的自动化运行总数。使用此指标来识别需要注意或调试的有问题的自动化。

  • SuccessfulAutomationRunCount-成功完成的自动化运行总数。使用此指标来跟踪自动化的可靠性和成功率。

  • AutomationRunDuration-每次自动化运行完成所花费的时间。使用此指标来识别性能瓶颈并优化自动化效率。

  • StoppedAutomationRunCount-在完成之前手动停止或终止的自动化运行次数。这可能表示用户干预或系统启动的停止。

  • TotalAutomationRunCount-所有自动化运行的总计数,无论状态如何。使用此指标来监控整体自动化活动和使用模式。

AutomationGroupId 指标

这些指标为所有案例提供了更广泛的视角:

  • TotalCaseCount-自动化系统处理的案例总数。使用此指标来跟踪总体工作负载量。

  • CompletedCaseCount-成功处理和结案的案件数量。使用此指标来衡量吞吐量和生产率。

  • FailedCaseCount-处理过程中失败的案例数量。使用此指标来识别系统性问题或故障模式。

  • CaseDuration-从头到尾处理案件所花费的时间。使用此指标来评估整体系统性能并确定优化的机会。

查找 AutomationId 和 AutomationGroupId

要 AutomationGroupId 为您的自动化找到 AutomationId 和,请执行以下操作:

  • 登录 Amazon Quick Automate。

  • 在左侧导航窗格中,选择 “自动化”。

  • 选择包含您的自动化的自动化组。

  • 选择自动化名称以打开自动化。

  • 选择部署选项卡。

  • 选择 “操作” (‹) 和 “查看部署详细信息”,即可在顶部的 “部署详细信息” 标题下方获取自动化 ID 和群组 ID

设置 CloudWatch 警报

使用这些指标来监控自动化的运行状况或在中设置警报。 CloudWatch例如,您可以针对以下情况创建警报:

  • 在指定时间段内,超过五次自动化运行失败。

  • 超过10个案例在指定时间内失败。

  • 案例持续时间超过 30 分钟。

有关创建警报的更多信息,请参阅CloudWatch 警报