持续预训练 (CPT)

持续预训练（CPT）是一种通过让基础模型接触来自特定领域或语料库的额外无标注文本，从而延长模型预训练阶段的训练技术。监督式微调需要带标注的输入-输出样本对，而 CPT 直接基于原始文档进行训练，帮助模型掌握更深的新领域知识、学习领域专属术语与行文风格，并适配特定内容类型或主题领域。

当您拥有海量（数百亿词元级）的领域专属文本数据（如法律文书、医学文献、技术文档或企业专有内容），并希望模型在该领域具备原生流畅度时，这种方法尤为适用。通常，在 CPT 阶段之后，模型还需要经过额外的指令微调阶段，才能将新学到的知识用于完成实际任务。

CPT 适用于以下 Amazon Nova 模型：

满足以下场景时，建议选择 Nova 1.0：

模型并非越大越优。在 Nova 1.0 与 Nova 2.0 之间选型时，请综合考虑性价比与具体业务需求。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

训练

Nova 1.0 上的 CPT