监控您的 RFT 训练作业 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控您的 RFT 训练作业

在强化微调期间,您可以使用 Amazon Bedrock 控制台中的可视化图表和指标实时监控训练进度。训练指标仪表板显示关键绩效指标,包括奖励分数、损失曲线和准确性随着时间的推移而提高。这些指标可以帮助您了解模型是否正确收敛以及奖励功能是否有效地指导了学习过程。

实时训练指标

Amazon Bedrock 通过显示训练和验证指标的可视化图表在 RFT 训练期间提供实时监控。

核心训练指标

  • 训练损失-衡量模型从训练数据中学习的程度

  • 训练奖励统计信息-显示由您的奖励函数分配的奖励分数

  • 奖励幅度-衡量好坏回应奖励之间的区别

  • 训练集和验证集的精度-显示模型在训练和保留数据上的性能

训练进度可视化

控制台显示交互式图表,这些图表会随着您的 RFT 任务进行实时更新。这些可视化可以帮助您:

  • 追踪趋同以实现最佳性能

  • 尽早发现潜在的培训问题

  • 确定最佳停靠点

  • 比较不同时期的表现

Job 状态跟踪

通过 Amazon Bedrock 控制台监控您的 RFT 任务状态。

Job 阶段:

  1. 验证

  2. 训练

完成指标:

  • 训练成功完成后,Job 状态更改为 “已完成”

  • 自定义模型 ARN 可供部署

  • 训练指标达到收敛阈值