本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
利用 Amazon SageMaker 智能筛选器在训练过程中完善数据
SageMaker 智能筛选器是 SageMaker 训练的一项功能,有助于提高训练数据集的效率,减少总训练时间和成本。
大型语言模型(LLM)或视觉转换器模型等现代深度学习模型通常需要海量数据集才能达到可接受的精度。例如,LLM 通常需要数万亿个令牌或 PB 级数据才能收敛。随着训练数据集规模的不断扩大,以及最先进模型规模的扩大,模型训练的计算时间和成本也随之增加。
数据集中的样本在模型训练过程中对学习过程的贡献不一。训练过程中提供的大部分计算资源可能会用于处理简单样本,而这些样本对模型的整体准确性并没有太大贡献。理想情况下,训练数据集只包含能真正提高模型收敛性的样本。筛选出不太有用的数据可以减少训练时间和计算成本。但是,识别不太有用的数据可能具有挑战性和风险。实际上,在训练之前很难确定哪些样本的信息量较少,如果排除了错误的样本或过多的样本,就会影响模型的准确性。
利用 Amazon SageMaker AI 对数据进行智能筛选,有助于通过提高数据效率来减少训练时间和成本。SageMaker 智能筛选算法会在训练作业的数据加载阶段评估每个数据的损失值,并排除对模型信息较少的样本。通过使用改进的数据进行训练,可以避免对非改进数据进行不必要的前向和后向传递,从而减少训练模型的总时间和成本。因此,这对模型的准确性影响极小或没有影响。
SageMaker 智能筛选可通过 SageMaker 训练深度学习容器 (DLC) 实现,并通过 PyTorch DataLoader 支持 PyTorch 工作负载。只需更改几行代码即可实现 SageMaker 智能筛选,无需更改现有的训练或数据处理工作流程。