本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
准备您的训练数据和奖励函数以进行强化微调
要创建强化微调作业,您需要训练数据和用于评估响应质量的奖励函数。与需要输入输出对的传统微调不同,RFT 使用提示和奖励信号来指导模型学习。
您可以使用现有的 Amazon Bedrock API 调用日志作为训练数据或上传新的数据集。奖励函数定义了做出良好响应的因素,可以使用基于规则的验证 (RLVR) 或基于人工智能的判断 (RLAIF)。
重要
您最多可以向 Amazon Bedrock 提供 2 万条提示,用于对模型进行加固微调。