3. 可观测性和模型管理 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

3. 可观测性和模型管理

核对清单的可观测性和模型管理部分包括整个机器学习系统的模型版本控制和链路跟踪。模型版本控制有助于跟踪和控制应用于模型的所有更改,以便在需要时可以恢复先前版本。链路跟踪可提供模型流入和流出的视图。世系跟踪的另一个主要优势是 point-in-time恢复 (PITR),它可以自动执行部署和系统恢复。

3.1 版本化模型注册表

通常,模型注册表支持模型组件的版本控制和链路跟踪。良好的注册表可以将元数据与版本化模型关联,包括:

  • 使用的数据

  • 该模型的相关信息

  • 评估指标结果

  • 关联的模型代码

3.2 偏差、公平性和可解释性

机器学习系统至少应该有一个可以向其他各方解释模型预测的过程。用户应该能够检查每个特征的结果是否存在偏差。理想情况下,在将数据输入机器学习模型之前测量数据偏差,并记录这些指标以供模型卡片和审计。

3.3 链路跟踪:数据输入和输出

已建立跟踪机制,以跟踪数据在系统内外的流动情况(例如从数据湖到训练管线的运行情况)。此跟踪起到记录的作用,可以从中重新创建所有系统进程,并提供审计跟踪记录以供分析。

3.4 链路跟踪:环境信息

此跟踪捕获有关运行时环境设置的信息,例如所有模型代码的容器映像以及容器的关联依赖关系。

3.5 链路跟踪:模型

此跟踪捕获有关模型的信息。其中包括从模型算法信息到进入模型的参数和超参数的所有内容。

3.6 与部署和监控集成

此系统应直接与 PITR 的监控和部署子系统相连。对于监控,这意味着根据模型的训练运行来测试模型的性能,以检测模型质量下降。对于部署,它支持 PITR,并能够根据需要回滚到以前的模型版本。

3.7 管线参数配置

从技术上讲,管线参数配置既属于链路跟踪又属于试验跟踪,因为管线配置必须受版本控制并与模型直接关联。本节列出了管线参数配置,因为必须跟踪所有系统编排配置并对其进行版本控制。

3.8 问题是可追踪、可调试和可重现的。

工程师可以毫不费力地跟踪、调试和重现系统中的所有问题。这意味着已具备足够的可观测性。该检查主要源于完成“可观测性和模型管理”部分下的其他项目。

3.9 性能可视化

系统可以捕获日志并将其收集为时间序列数据库类型格式,然后将其直接摄取到控制面板中。控制面板提供了模型和计算机指标的整体视图,并能够进行深入分析和查询。