评估您的 RFT 模型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

评估您的 RFT 模型

成功完成钢筋微调工作后,您可以使用多种评估方法评估自定义模型的性能。Amazon Bedrock 提供了内置评估工具,可帮助您将 RFT 模型与基本模型进行比较,并验证改进情况。

评估方法

Amazon Bedrock 提供了多种评估您的 RFT 模型性能的方法。

验证指标

如果您上传验证数据集,您将在训练指标中看到另外两个图表。

  • 验证奖励-显示您的模型在训练示例之外的泛化效果。分数低于训练奖励是正常的,也是预期的。

  • 验证剧集长度-看不见的验证数据的平均响应时长。显示与训练示例相比,您的模型对新输入的响应效率如何。

在操场上测试

使用 Playground 测试功能进行快速、临时的评估。要使用 Playground 中的测试功能,需要设置推理。有关更多信息,请参阅 为评估设置推理

此交互式工具允许您:

  • 直接使用您的 RFT 模型测试提示

  • 比较您的自定义模型和基础模型 side-by-side之间的响应

  • 实时评估响应质量的改进

  • 尝试使用不同的提示来评估模型能力

基岩模型评估

使用 Amazon Bedrock 的模型评估,使用您自己的数据集来评估您的 RFT 模型。这提供了具有标准化指标和基准的全面性能分析。以下是 Amazon Bedrock 模型评估优势的一些示例。

  • 使用自定义测试数据集进行系统评估

  • 定量绩效比较

  • 用于一致评估的标准化指标

  • 与现有的 Amazon Bedrock 评估工作流程集成

为评估设置推理

在评估 RFT 模型之前,请使用以下选项之一设置推理:

按需型推理

创建自定义模型按需部署,以实现灵活的 pay-per-use评估。此选项包括基于代币的定价,根据推理期间处理的代币数量收费。

评估最佳实践

  • 系统地比较 ——始终使用相同的测试提示和评估标准对照基础模型评估您的 RFT 模型。

  • 使用不同的测试用例-包括代表您的真实用例的各种提示类型和场景。

  • 验证奖励一致性-确保您的模型改进与训练期间使用的奖励功能保持一致。

  • 测试边缘案例-评估具有挑战性或异常输入的模型行为,以评估稳健性。

  • 监控响应一致性-使用相似的提示检查您的模型在多次运行中是否提供一致的质量。