2. 试验 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

2. 试验

试验包括试验日志记录、跟踪和指标。这转化为跨平台、源代码控制和开发环境中的试验元数据集成。试验还包括能够通过调试来优化模型性能和准确性。

2.1 集成式开发环境

集成式开发环境(IDE)直接与云集成。IDE 可以与更大的系统交互并向其提交命令。理想情况下,它支持以下功能:

  • 本地开发

  • 版本控制集成

  • 调试到位,生成的所有日志和构件都进入版本控制

2.2 代码版本控制

为了帮助确保可重复性和可重用性,所有代码都会提交到具有适当版本控制的源存储库。其中包括基础设施代码、应用程序代码、模型代码,甚至笔记本(如果您选择使用它们)。

2.3 跟踪

机器学习项目需要能够跟踪和分析机器学习试验的工具。此工具应记录机器学习试验运行期间的所有指标、参数和构件,并将所有元数据记录到中心位置。中心位置将使您能够分析、可视化和审计您运行的所有试验。

2.4 跨平台集成

试验的历史结果及其所有元数据都可以在系统的其他部分中访问。例如,现有的编排管线可以访问此数据,监控工具也可以访问此数据。

2.5 调试:准确性和系统性能

一个全面的模型调试框架已到位,用于检查以下运行情况:

  • 查找瓶颈

  • 异常提醒

  • 最大限度地利用资源

  • 帮助分析试验

当训练强度较大时,最大限度地提高吞吐量至关重要,这使得它成为成本优化的必要工具。