代理详情 – 评估 - Amazon CloudWatch

代理详情 – 评估

评估功能为人工智能代理提供持续性的质量监控指标。您可通过控制面板呈现的信息,对人工智能代理的性能、质量及可靠性进行综合评估。

该功能无需依赖模拟测试用例,而是捕获真实的用户会话及代理交互数据,全方位呈现代理从接收输入信息到生成最终输出内容的全流程性能表现。通过代理评估功能,您可自定义抽样规则,仅对一定比例的会话或跟踪数据开展评估,再运用各类评估器对人工智能代理的实际运行性能进行评估并打分。评估得出的结果及分数将在评估控制面板中展示,您可借此监控性能趋势、识别潜在质量问题、设置警报规则,并对潜在问题展开调查与诊断。

评估控制面板会列出为所选代理启用并配置的所有评估项。有关为代理配置评估功能的更多信息,请参阅 AgentCore 评估。您可展开各评估项,查看对应的受评估会话、跟踪数据及跨度信息。

评测

评估详细信息

对于每项评估,控制面板均包含以下部分:

Evaluation configuration metrics

展示整体评估配置的相关指标。评估器用于定义人工智能代理某一具体性能维度的评估方式。如需查看某一评估器的详细信息,单击评估器列中的对应名称即可。如需查看某一评估器的条形图并分析其趋势,单击数量列中的对应数值即可。

评估配置指标
Session evaluations

为会话层级的评估器呈现评估结果。会话指单个用户或工作流相关交互行为的逻辑集合。一个会话可包含一条或多条跟踪数据。选中某一会话,即可在跟踪评估部分中筛选出该会话下的所有跟踪数据列表。

会话评估
Trace evaluations

为跟踪层级的评估器呈现评估结果。跟踪数据为代理单次执行任务或处理请求的完整记录。一条跟踪数据可包含一个或多个跨度信息。选中某一条跟踪数据,即可查看该跟踪数据的详情,以及基于此跟踪数据运行的所有评估器信息。

跟踪评估
Span evaluations

为跨度层级的评估器呈现评估结果。跨度数据代表一次执行过程中发生的各项独立操作。选中某一跨度数据,即可查看该数据的详情,以及该跨度内发生的所有操作信息。

跨度评估

评估图表

评估控制面板还为各评估器配备了条形图。图表可展示各评估器随时间变化的趋势,且支持为特定指标值设置警报。如需配置警报,单击图表中的对应柱形,再选择警报(铃铛)图标即可。有关更多信息,请参阅 使用 Amazon CloudWatch 告警

评估图表

评估结果的使用方法

若需直接调取评估结果数据,或希望制作自定义可视化图表、在 AgentCore 评估控制台外开展相关操作,可通过 CloudWatch Logs、CloudWatch Metrics 及 CloudWatch 控制面板直接访问评估结果。

在 CloudWatch Logs 中访问评估结果

评估结果会以嵌入式指标格式(EMF)自动发布到 CloudWatch Logs 中。

查找评估结果对应的日志组
  1. 打开 CloudWatch 控制台。

  2. 在导航窗格中,依次选择日志管理 > 日志组

  3. 搜索或导航至前缀为 /aws/bedrock-agentcore/evaluations/ 的日志组。

  4. 该日志组内的日志事件即包含评估结果数据。

有关日志组的使用及日志数据的查询方法,请参阅使用日志组和日志流以及通过 CloudWatch Logs Insights 分析日志数据

在 CloudWatch Metrics 中访问评估指标

评估结果指标会从嵌入式指标格式(EMF)日志中自动提取,并发布到 CloudWatch Metrics。

查找评估指标
  1. 打开 CloudWatch 控制台。

  2. 在导航窗格中,依次选择指标 > 所有指标

  3. 选中 Bedrock AgentCore/Evaluations 命名空间。

  4. 按维度浏览可用指标。

有关查看与使用指标的详细信息,请参阅使用 CloudWatch Metrics 以及绘制指标的图表

创建自定义控制面板

您可创建自定义面板,将评估指标与其他业务运行指标整合展示可视化图表。

创建包含评估指标的控制面板
  1. 在 CloudWatch 控制台上,从导航窗格中选择控制面板

  2. 请选择创建控制面板

  3. 添加小部件,从 Bedrock AgentCore/Evaluations 命名空间中选择指标。

  4. 根据需求自定义时间范围、统计方式及可视化类型。

有关详细操作步骤,请参阅创建和使用自定义控制面板以及使用 CloudWatch 控制面板

为评估指标设置警报

当评估指标超出设定的指定阈值时(例如准确率降至合格标准以下),即可通过设置警报接收提醒。

为评估指标创建警报
  1. 在 CloudWatch 控制台中,依次选择警报 > 所有警报

  2. 选择创建警报

  3. 选择选择指标,并导航到 Bedrock AgentCore/Evaluations 命名空间。

  4. 选择要监控的指标。

  5. 配置阈值条件(支持动态异常检测阈值,无需手动设定静态数值阈值)及通知动作。

有关详细操作步骤,请参阅使用 CloudWatch 警报以及根据静态阈值创建 CloudWatch 警报

其他资源