准备训练数据集以进行微调和持续预训练 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备训练数据集以进行微调和持续预训练

要为自定义模型准备训练数据集和验证数据集,您需要创建 .jsonl 文件,该文件中的每一行都是与记录相对应的 JSON 对象。您必须先至少准备训练数据集,之后才能启动模型自定义作业。您创建的文件必须与所选自定义方法和模型的格式一致,并且其中的记录必须符合大小要求,具体取决于模型。

有关模型要求的信息,请参阅训练数据集和验证数据集的模型要求。要查看用于自定义不同模型的训练数据集和验证数据集的默认配额,请参阅 AWS 一般参考中的 Amazon Bedrock 端点和配额中的训练和验证记录总计配额。

是否支持验证数据集以及训练数据集和验证数据集的格式取决于以下因素。

  • 微调自定义作业的类型(微调或持续预训练)。

  • 数据的输入和输出模态。

有关微调 Amazon Nova 模型的信息,请参阅微调 Amazon Nova 模型

支持进行微调和持续预训练的模态

以下各部分描述了每种模型所支持的不同微调和预训练能力,这些能力按模型的输入和输出模态进行了组织。有关微调 Amazon Nova 模型的信息,请参阅微调 Amazon Nova 模型

文本转文本模型

文本转文本模型可以针对各种基于文本的任务进行微调,包括对话式应用程序和非对话式应用程序。有关为微调文本转文本模型准备数据的信息,请参阅准备用于微调文本转文本模型的数据

以下非对话式模型已针对汇总、翻译和问答等任务进行了优化:

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite

  • Amazon Titan Text 高级版

  • Cohere Command

  • Cohere Command Light

  • Meta Llama 3.1 8B Instruct

  • Meta Llama 3.1 70B Instruct

以下对话式模型专为单回合交互和多回合交互场景而设计。如果模型使用 Converse API,则微调数据集必须遵循 Converse API 消息格式,并包含系统、用户和助手消息。有关示例,请参阅 准备用于微调文本转文本模型的数据。有关 Converse API 操作的更多信息,请参阅使用 Converse API 操作进行对话

  • Anthropic Claude 3 Haiku

  • Meta Llama 3.2 1B Instruct(Converse API 格式)

  • Meta Llama 3.2 3B Instruct(Converse API 格式)

  • Meta Llama 3.2 11B Instruct 视觉(Converse API 格式)

  • Meta Llama 3.2 90B Instruct 视觉(Converse API 格式)

  • Meta Llama 3.3 70B 视觉指令(Converse API 格式)

文本-图像转文本模型和文本转图像模型

以下模型支持对图像生成和文本-图像处理进行微调。这些模型根据文本输入处理或生成图像,或根据文本输入和图像输入生成文本。有关为微调文本-图像转文本模型与文本转图像模型准备数据的信息,请参阅准备用于微调图像和文本处理模型的数据

  • Amazon Titan Image Generator G1 V1

  • Meta Llama 3.2 11B Instruct 视觉

  • Meta Llama 3.2 90B Instruct 视觉

  • Meta Llama 3.3 70B 视觉指令

图像转嵌入

以下模型支持对分类和检索等任务进行微调。这些模型从图像输入中生成数值表示(嵌入)。有关为微调图像转嵌入模型准备数据的信息,请参阅准备用于微调图像生成模型和嵌入模型的数据

  • Amazon Titan Multimodal Embeddings G1

  • Amazon Titan Image Generator G1 V1

持续预训练:文本转文本

以下模型可用于持续预训练。这些模型支持基于特定领域数据进行持续预训练,以增强其基础知识。有关为文本转文本模型的持续预训练准备数据的信息,请参阅为持续预训练准备数据集

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite