本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
针对使用案例自定义模型以提高其性能
模型自定义是为模型提供训练数据的过程,目的是针对特定使用案例提高其性能。您可以自定义 Amazon Bedrock 基础模型,以提高其性能并创造更好的客户体验。Amazon Bedrock 目前提供以下自定义方法。
-
蒸馏
使用蒸馏方式,将知识从更大、更智能的模型(称为教师式模型)转移到更小、更快、更经济的模型(称为学生式模型)。Amazon Bedrock 使用最新的数据合成技术,从教师式模型中生成多样化、高质量的响应,然后对学生式模型进行微调,从而自动完成蒸馏过程。
要使用蒸馏,您需要根据使用案例所需实现的准确率选择一个教师式模型,然后选择一个要微调的学生式模型。然后,提供特定于使用案例的提示作为输入数据。Amazon Bedrock 使用给出的提示从教师式模型生成响应,然后使用这些响应来微调学生式模型。您可以选择以提示-响应对的形式提供标注的输入数据。
有关使用蒸馏的更多信息,请参阅在 Amazon Bedrock 中使用蒸馏功能自定义模型。
-
钢筋微调
通过基于反馈的学习,强化微调可以提高基础模型与您的特定用例的一致性。您可以定义评估响应质量的奖励函数,而不是提供带标签的输入输出对。该模型通过接收来自这些奖励函数的反馈分数来进行迭代学习。
您可以使用现有的 Bedrock 调用日志作为训练数据或上传自定义提示数据集。您可以使用定义奖励函数AWS Lambda来评估响应质量。Amazon Bedrock 可自动执行训练工作流程,并提供实时指标来监控模型学习进度。
有关使用钢筋微调的更多信息,请参阅在 Amazon Bedrock 中通过钢筋微调来自定义模型。
-
有监督的微调
提供带标签的数据来训练模型,以提高模型在特定任务中的性能。通过提供带标签的训练数据集样本,模型可以学会将某些类型的输入应产生哪些类型的输出关联起来。在此过程中,模型参数会得到调整,模型性能也会针对训练数据集所代表的任务得到提高。
-
继续进行预训练
提供无标记数据,通过让基础模型熟悉某些类型的输入来对其进行预训练。您可以提供特定主题的数据,以便让模型接触这些领域。持续预训练过程将调整模型参数,以适应输入数据并提高其领域知识。
例如,您可以使用私有数据(例如业务文档)来训练模型,这些数据不会公开用于训练大型语言模型。此外,您还可以使用更多可用的未标记数据重新训练模型,从而不断改进模型。
有关模型自定义配额的信息,请参阅 AWS 一般参考 中的 Amazon Bedrock 端点和配额。自定义模型后,您可以为新的自定义模型设置推理。有关更多信息,请参阅 为自定义模型设置推理。
注意
您需要根据模型处理的词元数量(训练数据语料库中的词元数 × 周期数)和每个模型每月的模型存储费用来支付模型训练费用。有关更多信息,请参阅 Amazon Bedrock 定价
模型自定义准则
用于自定义模型的理想参数取决于数据集以及模型所要执行的任务。您应该对值进行试验,以确定哪些参数最适合您的具体情况。为了获取帮助,请运行模型评估作业来评估模型。有关更多信息,请参阅 评测 Amazon Bedrock 资源的性能。
使用提交模型自定义作业时生成的输出文件中的训练和验证指标,帮助您调整参数。在您向其中写入输出的 Amazon S3 存储桶中查找这些文件,或者使用GetCustomModel操作。