为持续预训练准备数据集 - Amazon Bedrock

为持续预训练准备数据集

要对文本转文本模型执行持续预训练,请准备训练数据集和(可选)验证数据集。因为持续预训练涉及未标记的数据,所以每个 JSON 行都是一个仅包含 input 字段的样本。针对每个令牌使用 6 个字符,作为令牌数量的近似值。格式如下所示。

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

以下是训练数据中可能存在的示例项目。

{"input": "AWS stands for Amazon Web Services"}