使用 Amazon SageMaker 智能筛选在训练期间优化数据

SageMaker 智能筛选是 Training SageMaker 的一项功能，可帮助提高训练数据集的效率并减少总训练时间和成本。

大型语言模型（LLM）或视觉转换器模型等现代深度学习模型通常需要海量数据集才能达到可接受的精度。例如，LLM 通常需要数万亿个令牌或 PB 级数据才能收敛。随着训练数据集规模的不断扩大，以及最先进模型规模的扩大，模型训练的计算时间和成本也随之增加。

数据集中的样本在模型训练过程中对学习过程的贡献不一。训练过程中提供的大部分计算资源可能会用于处理简单样本，而这些样本对模型的整体准确性并没有太大贡献。理想情况下，训练数据集只包含能真正提高模型收敛性的样本。筛选出不太有用的数据可以减少训练时间和计算成本。但是，识别不太有用的数据可能具有挑战性和风险。实际上，在训练之前很难确定哪些样本的信息量较少，如果排除了错误的样本或过多的样本，就会影响模型的准确性。

使用 Amazon A SageMaker I 智能筛选数据可以提高数据效率，从而帮助减少训练时间和成本。 SageMaker 智能筛选算法在训练作业的数据加载阶段评估每个数据的损失值，并排除对模型信息较少的样本。通过使用改进的数据进行训练，可以避免对非改进数据进行不必要的前向和后向传递，从而减少训练模型的总时间和成本。因此，这对模型的准确性影响极小或没有影响。

SageMaker 智能筛选可通过 T SageMaker raining Deep Learning Containers (DLC) 获得，并通过该容器支持 PyTorch 工作负载。 PyTorch DataLoader只需更改几行代码即可实现 SageMaker 智能筛选，您无需更改现有的训练或数据处理工作流程。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

超参数调优的最佳实践

SageMaker 智能筛选的工作原理