本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控性能
Amazon Quick Automate 提供全面的监控功能,可帮助您跟踪性能、审计自动化并对其进行故障排除。本节介绍如何使用 Amazon Quick Automate 中的性能监控功能。
先决条件
在使用绩效控制面板之前,您需要:
主动自动化-必须至少运行一个自动化才能查看指标
自动化组访问权限-查看要监控的自动化组的权限
自动化摘要仪表板
“自动化” 选项卡提供了整个自动化产品组合的高级指标和关键绩效指标。
自动化摘要图表
仪表板包括三个主要的性能可视化效果:
自动化分布-显示按自动化组组织的已部署自动化的数量,帮助您了解整个组织的自动化足迹
成功率-显示成功完成的案例与遇到异常的案例的百分比,从而深入了解自动化的可靠性
节省的时间-根据成功完成的案例乘以为每个自动化项目配置的预计节省时间,计算节省的总时长
自动化详细信息表
每个自动化都列出了关键指标和状态信息:
自动化名称-已部署自动化的名称和版本
最新运行-最近的执行状态和时间戳
案例指标-已处理的案例数量,细分为:
成功完成案例
存在业务异常的案例
存在系统异常的案例
任务-自动化创建的人机在环任务的数量
运行仪表板
“运行” 选项卡提供了对单个自动化执行及其结果的详细可见性。
运行状态
自动化可以处于以下运行状态之一:
等待-自动化已排队,正在等待可用的系统资源开始执行。这通常是一个短暂的过渡状态。
进行中-自动化正在积极执行其配置的步骤。您可以通过日志监控实时进度。
已完成-自动化已成功完成所有步骤。
失败-自动化遇到了无法恢复的错误,因此停止了执行。日志中提供了详细的错误信息。
已停止-用户使用 “退出” 或 “终止” 操作手动中断了自动化执行。
注意
未完成的运行计数包括等待和进行中。
运行详细信息表
每次运行都通过以下列提供全面的执行信息:
状态-当前运行状态(如运行状态类型中所定义)
自动化-正在运行的自动化的名称
版本-已运行自动化的特定版本号
开始时间-自动化运行的开始时间
结束时间-自动化完成或停止的时间
持续时间-自动化的总运行时间
案例指标-已处理的案例数量,细分为:
成功完成案例
存在业务异常的案例
存在系统异常的案例
任务-运行中创建的人机在环任务数
注意
首次导航到页面时会刷新数据。单击 “刷新” 按钮可随时提取最新数据。
案例仪表板
“案例” 选项卡允许在单个案例记录的整个生命周期中对其进行跟踪。
案例图
仪表板包括两个主要的性能可视化效果:
创建的案例总数-显示一段时间内创建的案例数量,帮助您了解自动化数量。
热门例外-显示前 5 个异常原因以及每个原因的相对数量,帮助您确定优化工作的优先顺序,以提高成功率。
案例状态
案例可能处于以下处理状态之一:
准备就绪-案例已创建,正在等待提货处理。这是所有新病例的初始状态。
处理@@ 中-自动化系统正在积极处理此案件。您可以通过日志监控实时进度。
待解决 ——案例正在等待人工在环任务完成后才能继续处理。任务解决后,案例将恢复为 “就绪” 状态。
成功-案例已完成,没有任何例外。
失败-案例遇到了以下异常类型之一:
业务异常-该案例遇到了已处理的业务规则违规行为并停止了处理。日志中提供了详细的异常信息。
系统异常-问题出现技术错误并停止处理。日志中提供了详细的错误信息。
有关案例处理和编排模式的详细信息,请参阅编排操作。
搜索和筛选
性能控制面板包括所有监控视图中都可用的搜索和筛选功能,可帮助您查找特定信息。筛选依据:
时间范围
Status
自动化组
自动化
注意
您也可以在案例页面上按参考名称或异常原因进行搜索。
环境选择
在查看以下指标之间切换:
测试-来自开发环境中自动化测试的数据
已部署-来自已部署自动化的数据
注意
在更改之前,您选择的环境将应用于所有仪表板选项卡。
CloudWatch
亚马逊在 Amazon Quick Automate 中为您的自动化 CloudWatch 提供了监控和可观察性功能。本节介绍中提供的指标 CloudWatch、如何查看指标以及如何为这些指标设置警报。
先决条件
IAM 角色和权限
要授予 CloudWatch 访问权限,请遵循最低权限原则:
创建 IAM 角色或群组,最好使用 AWS IAM Identity Center。
附加 AWS 托管策略 CloudWatchFullAccess 以获得全面的监控和警报功能。
(可选) CloudWatchLogsReadOnlyAccess 在没有删除权限的情况下添加日志查询。
将用户分配到此角色或组,以便无需更广泛的管理权限即可进行 CloudWatch 操作。
有关详细的分步说明,请参阅中的入门设置 CloudWatch和CloudWatch 权限指南。
正在访问 CloudWatch
导航到 AWS 管理控制台。
CloudWatch 在服务搜索栏中输入。
CloudWatch 从结果中进行选择以打开 CloudWatch 控制台。
访问 Amazon 快速自动化的 CloudWatch 指标
打开控制 CloudWatch 台。
在左侧导航窗格中,选择指标、所有指标。
选择服务命名空间QuickSight。
选择相关维度(AutomationGroupId或 AutomationId)以查看指标。
使用搜索栏按指标名称或维度进行搜索或筛选。
有关更多详细信息,请参阅CloudWatch 指标文档。
可用指标
Amazon Quick Automate 将指标发布到QuickSight命名空间 CloudWatch 下方。指标按AutomationId或AutomationGroupId维度分组。
注意
CloudWatch 是一项区域服务。要查看指标,请确保您位于运行自动化的同一 AWS 区域。
AutomationId 指标
这些指标跟踪个人的自动化绩效:
FailedAutomationRunCount-执行期间失败的自动化运行总数。使用此指标来识别需要注意或调试的有问题的自动化。
SuccessfulAutomationRunCount-成功完成的自动化运行总数。使用此指标来跟踪自动化的可靠性和成功率。
AutomationRunDuration-每次自动化运行完成所花费的时间。使用此指标来识别性能瓶颈并优化自动化效率。
StoppedAutomationRunCount-在完成之前手动停止或终止的自动化运行次数。这可能表示用户干预或系统启动的停止。
TotalAutomationRunCount-所有自动化运行的总计数,无论状态如何。使用此指标来监控整体自动化活动和使用模式。
AutomationGroupId 指标
这些指标为所有案例提供了更广泛的视角:
TotalCaseCount-自动化系统处理的案例总数。使用此指标来跟踪总体工作负载量。
CompletedCaseCount-成功处理和结案的案件数量。使用此指标来衡量吞吐量和生产率。
FailedCaseCount-处理过程中失败的案例数量。使用此指标来识别系统性问题或故障模式。
CaseDuration-从头到尾处理案件所花费的时间。使用此指标来评估整体系统性能并确定优化的机会。
查找 AutomationId 和 AutomationGroupId
要 AutomationGroupId 为您的自动化找到 AutomationId 和,请执行以下操作:
登录 Amazon Quick Automate。
在左侧导航窗格中,选择 “自动化”。
选择包含您的自动化的自动化组。
选择自动化名称以打开自动化。
选择部署选项卡。
选择 “操作” (‹) 和 “查看部署详细信息”,即可在顶部的 “部署详细信息” 标题下方获取自动化 ID 和群组 ID。
设置 CloudWatch 警报
使用这些指标来监控自动化的运行状况或在中设置警报。 CloudWatch例如,您可以针对以下情况创建警报:
在指定时间段内,超过五次自动化运行失败。
超过10个案例在指定时间内失败。
案例持续时间超过 30 分钟。
有关创建警报的更多信息,请参阅CloudWatch 警报。