代理详情 – 评估
评估功能为人工智能代理提供持续性的质量监控指标。您可通过控制面板呈现的信息,对人工智能代理的性能、质量及可靠性进行综合评估。
该功能无需依赖模拟测试用例,而是捕获真实的用户会话及代理交互数据,全方位呈现代理从接收输入信息到生成最终输出内容的全流程性能表现。通过代理评估功能,您可自定义抽样规则,仅对一定比例的会话或跟踪数据开展评估,再运用各类评估器对人工智能代理的实际运行性能进行评估并打分。评估得出的结果及分数将在评估控制面板中展示,您可借此监控性能趋势、识别潜在质量问题、设置警报规则,并对潜在问题展开调查与诊断。
评估控制面板会列出为所选代理启用并配置的所有评估项。有关为代理配置评估功能的更多信息,请参阅 AgentCore 评估。您可展开各评估项,查看对应的受评估会话、跟踪数据及跨度信息。
评估详细信息
对于每项评估,控制面板均包含以下部分:
评估图表
评估控制面板还为各评估器配备了条形图。图表可展示各评估器随时间变化的趋势,且支持为特定指标值设置警报。如需配置警报,单击图表中的对应柱形,再选择警报(铃铛)图标即可。有关更多信息,请参阅 使用 Amazon CloudWatch 告警。
评估结果的使用方法
若需直接调取评估结果数据,或希望制作自定义可视化图表、在 AgentCore 评估控制台外开展相关操作,可通过 CloudWatch Logs、CloudWatch Metrics 及 CloudWatch 控制面板直接访问评估结果。
在 CloudWatch Logs 中访问评估结果
评估结果会以嵌入式指标格式(EMF)自动发布到 CloudWatch Logs 中。
查找评估结果对应的日志组
-
打开 CloudWatch 控制台。
-
在导航窗格中,依次选择日志管理 > 日志组。
-
搜索或导航至前缀为
/aws/bedrock-agentcore/evaluations/的日志组。 -
该日志组内的日志事件即包含评估结果数据。
有关日志组的使用及日志数据的查询方法,请参阅使用日志组和日志流以及通过 CloudWatch Logs Insights 分析日志数据。
在 CloudWatch Metrics 中访问评估指标
评估结果指标会从嵌入式指标格式(EMF)日志中自动提取,并发布到 CloudWatch Metrics。
查找评估指标
-
打开 CloudWatch 控制台。
-
在导航窗格中,依次选择指标 > 所有指标。
-
选中 Bedrock AgentCore/Evaluations 命名空间。
-
按维度浏览可用指标。
有关查看与使用指标的详细信息,请参阅使用 CloudWatch Metrics 以及绘制指标的图表。
创建自定义控制面板
您可创建自定义面板,将评估指标与其他业务运行指标整合展示可视化图表。
创建包含评估指标的控制面板
-
在 CloudWatch 控制台上,从导航窗格中选择控制面板。
-
请选择创建控制面板。
-
添加小部件,从 Bedrock AgentCore/Evaluations 命名空间中选择指标。
-
根据需求自定义时间范围、统计方式及可视化类型。
有关详细操作步骤,请参阅创建和使用自定义控制面板以及使用 CloudWatch 控制面板。
为评估指标设置警报
当评估指标超出设定的指定阈值时(例如准确率降至合格标准以下),即可通过设置警报接收提醒。
为评估指标创建警报
-
在 CloudWatch 控制台中,依次选择警报 > 所有警报。
-
选择创建警报。
-
选择选择指标,并导航到 Bedrock AgentCore/Evaluations 命名空间。
-
选择要监控的指标。
-
配置阈值条件(支持动态异常检测阈值,无需手动设定静态数值阈值)及通知动作。
有关详细操作步骤,请参阅使用 CloudWatch 警报以及根据静态阈值创建 CloudWatch 警报。