本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon CloudWatch 指标监控和分析训练作业
Amazon SageMaker 训练作业是一个迭代过程,通过提供来自训练数据集中的示例来教模型进行预测。通常情况下,训练算法计算几个指标,例如训练错误和预测准确度。这些指标有助于诊断模型的学习效果是否良好,以及针对未看到的数据进行预测是否将实现很好的泛化。训练算法将这些指标的值写入到日志中,而 SageMaker AI 实时监控这些值并将它们发送到 Amazon CloudWatch。要分析训练作业的性能,您可以在 CloudWatch 中查看这些指标的图表。当训练作业已完成时,您还可以获得它通过调用 DescribeTrainingJob 操作在其最终迭代中计算的度量值的列表。
注意
Amazon CloudWatch 支持高分辨率的自定义指标,其最佳分辨率为 1 秒钟。但是,分辨率越高,CloudWatch 指标的生命周期就越短。对于频率为 1 秒的分辨率,CloudWatch 指标可用期为 3 小时。有关 CloudWatch 指标的分辨率和生命周期的更多信息,请参阅 Amazon CloudWatch API 参考中的 GetMetricStatistics。
提示
如果您想以更精细的分辨率来描述您的训练作业,精度低至 100 毫秒(0.1 秒),并将训练指标无限期存储在 Amazon S3 中以便随时进行自定义分析,请考虑使用 Amazon SageMaker Debugger。SageMaker Debugger 内置了一些规则,可自动检测常见的训练问题;它可以检测硬件资源利用率问题(例如 CPU、GPU 和 I/O 瓶颈)以及非收敛模型问题(例如过度拟合、梯度消失和张量爆炸等)。SageMaker Debugger 还通过 Studio Classic 及其分析报告提供可视化效果。要探索 Debugger 可视化效果,请参阅 SageMaker Debugger 见解控制面板演练、Debugger 分析报告演练以及使用 SMDebug 客户端库分析数据。