准备用于微调文本转文本模型的数据 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备用于微调文本转文本模型的数据

注意

有关微调 Amazon Nova 模型的信息,请参阅微调 Amazon Nova 模型

在微调文本转文本模型时,每个 JSON 对象均为一个包含结构化字段的示例,这些字段旨在指导模型根据提供的文本提示来生成所需的文本输出。数据格式因使用案例(主要分为非对话式使用案例型和对话式使用案例)而异。非对话式任务包含独立的提示与输出,而对话式任务可进一步划分为单回合交互(模型对单次用户输入进行响应)和多回合对话(模型在多次交互过程中保留上下文信息)。

非对话式任务

非对话式任务涉及为给定输入生成单个输出。每个数据集示例均包括一个带输入文本的 prompt 字段和一个带预期输出的 completion 字段。此格式支持一系列任务,例如问答、总结、翻译、文本补全和信息提取。

示例格式

{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."} {"prompt": "Summarize the article about climate change.", "completion": "Climate change refers to the long-term alteration of temperature and typical weather patterns in a place."}

按每个词元约 6 个字符的比例估算词元数量,以便规划数据集大小。

Converse API 格式(单回合和多回合)

要使用 Converse API,您需要调用 ConverseConverseStream 操作向模型发送消息。要调用 Converse,需具有 bedrock:InvokeModel 操作的权限。要调用 ConverseStream,需具有 bedrock:InvokeModelWithResponseStream 操作的权限。有关更多信息,请参阅 使用 Converse API。有关 Converse API 操作的更多信息,请参阅使用 Converse API 操作进行对话

示例格式

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }

仅适用于 Anthropic Claude 3 Haiku:单回合对话

单回合对话式任务包含独立交互,在此类任务中,模型仅依据当前用户输入生成响应,而不考虑之前的上下文信息。每个数据集示例均使用一个消息数组,其中交替使用 userassistant 的角色。

格式

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

示例

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

仅适用于 Anthropic Claude 3 Haiku:多回合对话

多回合对话式任务包含扩展性对话,在此类任务中,模型必须生成响应,同时保留先前交互的上下文信息。此格式能够捕获交互式任务的动态特性,例如客户支持或复杂的讨论。

格式

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

示例

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}