本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
评估您的 RFT 模型
成功完成钢筋微调工作后,您可以使用多种评估方法评估自定义模型的性能。Amazon Bedrock 提供了内置评估工具,可帮助您将 RFT 模型与基本模型进行比较,并验证改进情况。
评估方法
Amazon Bedrock 提供了多种评估您的 RFT 模型性能的方法。
验证指标
如果您上传验证数据集,您将在训练指标中看到另外两个图表。
-
验证奖励-显示您的模型在训练示例之外的泛化效果。分数低于训练奖励是正常的,也是预期的。
-
验证剧集长度-看不见的验证数据的平均响应时长。显示与训练示例相比,您的模型对新输入的响应效率如何。
在操场上测试
使用 Playground 测试功能进行快速、临时的评估。要使用 Playground 中的测试功能,需要设置推理。有关更多信息,请参阅 为评估设置推理。
此交互式工具允许您:
-
直接使用您的 RFT 模型测试提示
-
比较您的自定义模型和基础模型 side-by-side之间的响应
-
实时评估响应质量的改进
-
尝试使用不同的提示来评估模型能力
基岩模型评估
使用 Amazon Bedrock 的模型评估,使用您自己的数据集来评估您的 RFT 模型。这提供了具有标准化指标和基准的全面性能分析。以下是 Amazon Bedrock 模型评估优势的一些示例。
-
使用自定义测试数据集进行系统评估
-
定量绩效比较
-
用于一致评估的标准化指标
-
与现有的 Amazon Bedrock 评估工作流程集成
为评估设置推理
在评估 RFT 模型之前,请使用以下选项之一设置推理:
按需型推理
创建自定义模型按需部署,以实现灵活的 pay-per-use评估。此选项包括基于代币的定价,根据推理期间处理的代币数量收费。
评估最佳实践
-
系统地比较 ——始终使用相同的测试提示和评估标准对照基础模型评估您的 RFT 模型。
-
使用不同的测试用例-包括代表您的真实用例的各种提示类型和场景。
-
验证奖励一致性-确保您的模型改进与训练期间使用的奖励功能保持一致。
-
测试边缘案例-评估具有挑战性或异常输入的模型行为,以评估稳健性。
-
监控响应一致性-使用相似的提示检查您的模型在多次运行中是否提供一致的质量。