示例:查看训练和验证曲线 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

示例:查看训练和验证曲线

通常,您将用于训练模型的数据拆分为训练和验证数据集。您使用训练集来训练用于对训练数据集进行预测的模型参数。然后,通过计算验证集的预测结果来测试模型预测的效果。一种常见的分析训练作业性能的方法是对照验证曲线绘制训练曲线。

查看训练集和验证集的准确性随时间变化的图形可帮助您改进模型性能。例如,如果训练准确性随时间持续提高,但在某个时间点验证准确性开始下降,则您可能过拟合您的模型。要解决此问题,可以对模型进行调整,例如提高正则化水平。

在此示例中,您可以使用 SageMaker AI 笔记本实例的示例笔记本部分中的 Image-classification-full-training 示例。如果您还没有 SageMaker 笔记本实例,请按照 为本教程创建 Amazon SageMaker 笔记本实例 中的说明进行操作来创建一个。如果您愿意,可以遵循 GitHub 上示例笔记本中的端到端多类图像分类示例。您还需要一个 Amazon S3 存储桶来存储训练数据和进行模型输出。

查看训练和验证错误曲线
  1. 通过 https://console.aws.amazon.com/sagemaker 打开 SageMaker AI 控制台。

  2. 选择 Notebooks (笔记本),然后选择 Notebook instances (笔记本实例)

  3. 选择要使用的笔记本实例,然后选择 Open (打开)

  4. 在笔记本实例的控制面板上,选择 SageMaker AI 示例

  5. 展开 Amazon 算法简介部分,然后选择 Image-classification-fulltraining.ipynb 旁边的使用

  6. 选择创建副本。SageMaker AI 在笔记本实例中创建 Image-classification-fulltraining.ipynb 笔记本的可编辑副本。

  7. 运行笔记本中的所有单元格,直至部署部分。您不需要部署终端节点或获取此示例的推论。

  8. 在训练作业启动后,通过以下网址打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch

  9. 选择 Metrics (指标),然后选择 /aws/sagemaker/TrainingJobs

  10. 选择 TrainingJobName

  11. All metrics (所有指标) 选项卡上,为您在笔记本中创建的训练作业选择 train:accuracyvalidation:accuracy 指标。

  12. 在图表中,选择一个区域来放大指标值。您应看到与以下示例类似的内容。

    图表中的放大区域。