8. 持续训练 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

8. 持续训练

持续训练意味着,机器学习系统会在重新部署之前自动持续地重新训练机器学习模型,以适应数据的变化。可能的重建触发因素包括数据更改、模型更改或代码更改。

8.1 检查:模型输入验证

已进行检查,以验证模型的输入是否偏离特定标准。输入验证是指在模型提升期间运行功能测试。还意味着立即验证输入请求,例如使用断言和枚举类型。

8.2 重新训练触发:计划作业

这是训练自动化的最基本形式。模型重新训练是按计划进行的(例如,每周一次)。在这种情况下,自动化程度可能很低,需要在模型提升之前对结果进行人工审查和抽查。

8.3 重新训练触发:新的训练数据

重新训练由传入的数据阈值启动。模型可以从头开始重新训练或逐步运行更新。只要有指定数量的数据,训练作业就会开始。

8.4 重新训练触发:模型性能下降

此技术使用监控和可观测性来运行模型重新训练,且需要成熟的自动化水平。例如,准确率从给定范围下降,这会触发对全部或部分数据重新训练模型。

8.5 重新训练触发:数据分布漂移

监控数据分布漂移提供了一种设置触发器的方法,以便在模型的底层数据发生变化时对其进行重新训练。在概念漂移或数据分布漂移上设置的违规会启动模型重新训练作业。