1. 以数据为中心的管理 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

1. 以数据为中心的管理

数据管理是指确保在训练、测试和推理中使用的数据得到适当管理、保护和验证的实践。在大规模构建模型时,数据是实现高性能模型的主要资源。

1.1 数据存储库

数据存储库需要能够跟踪数据并查看其来源。添加或删除新数据时,数据存储库会在 point-in-time恢复过程中记录这些更改。数据存储库应考虑如何跟踪和处理标签数据,以及如何跟踪中间数据构件。

1.2 多样化数据来源集成

根据应用程序,训练模型可能需要来自多个来源的数据。设计和维护清单,让机器学习从业者了解可用的数据来源以及它们是如何结合在一起的,对于构建模型至关重要。

1.3 数据架构验证

为了给模型提供数据,训练数据的同质性​​非常重要。对于存储在数据湖解决方案 [例如 Amazon Simple Storage Service(Amazon S3)] 或文档数据存储中的数据,可能需要进行转换或其他探索性分析。

1.4 数据版本控制和血统

在训练可能用于生产的模型时,您必须能够重现结果,并有可靠的方法进行消融研究,以更好地了解整体模型性能。跟踪训练数据的状态对于这种可重复性至关重要。诸如数据版本控制(DVC)之类的工具可以协助解决此问题。

1.5 标注工作流程

如果在项目开始时没有标注的数据,则创建标注的数据通常是必要步骤。诸如 Amazon G SageMaker round Truth 之类的工具要求对输入数据进行适当的结构化处理,并且需要经过定义和测试的标签工作。必须采用内部或外部标注者来完成这项工作。然后应使用冗余标注或机器学习方法对数据进行验证,以识别训练数据集中的异常值或错误。

1.6 在线和离线特征存储

机器学习系统具有特征存放区或集中式存储区,用于存储特征和关联的元数据,以便可以重复使用特征或模型输入。可以创建在线存储,也可以创建离线存储。使用在线存储用于低延迟、实时推理使用案例。用于训练和批量推理的离线存储