配置 SageMaker Debugger 以保存张量 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置 SageMaker Debugger 以保存张量

张量是在每次训练迭代中,向后和向前传递所更新参数的数据集合。SageMaker Debugger 收集输出张量以分析训练作业的状态。SageMaker Debugger 的 CollectionConfigDebuggerHookConfig API 操作提供了方法,用于将张量分组到集合中,然后将它们保存到目标 S3 存储桶。以下主题将介绍如何使用 CollectionConfigDebuggerHookConfig API 操作,并举例说明如何使用 Debugger 钩子保存、访问和可视化输出张量。

在构造 SageMaker AI 估算器时,通过指定 debugger_hook_config 参数来激活 SageMaker Debugger。以下主题提供的示例说明了如何使用 CollectionConfigDebuggerHookConfig API 操作设置 debugger_hook_config,以从训练作业中提取张量并保存它们。

注意

除非另外指定,否则在正确地进行配置和激活后,SageMaker Debugger 会将输出张量保存在默认 S3 存储桶中。默认 S3 存储桶 URI 的格式为 s3://amzn-s3-demo-bucket-sagemaker-<region>-<12digit_account_id>/<training-job-name>/debug-output/