Amazon SageMaker 探查器 - Amazon SageMaker AI

Amazon SageMaker 探查器

Amazon SageMaker 探查器目前为预览版,并已在支持的 AWS 区域中免费提供。Amazon SageMaker 探查器的正式发布版本(如果有)的所含功能和定价与预览版的所含功能和定价可能不同。

Amazon SageMaker 探查器是 Amazon SageMaker AI 的一项功能,它详细地说明了在 SageMaker AI 上训练深度学习模型期间预调配的 AWS 计算资源。它侧重于分析 CPU 和 GPU 使用率、GPU 上的内核运行、CPU 上的内核启动、同步操作、CPU 和 GPU 之间的内存操作、内核启动和相应运行之间的延迟,以及 CPU 和 GPU 之间的数据传输。SageMaker 探查器还提供可视化配置文件的用户界面 (UI)、已分析事件的统计摘要以及用于跟踪和理解 GPU 和 CPU 之间事件的时间关系的训练作业时间表。

注意

SageMaker 探查器支持 PyTorch 和 TensorFlow,并且在 AWS Deep Learning Containers for SageMaker AI 中可用。要了解更多信息,请参阅支持的框架映像、AWS 区域 和实例类型

对于数据科学家

在大型计算集群上训练深度学习模型通常会遇到计算优化问题,例如瓶颈、内核启动延迟、内存限制和资源利用率低。

要确定此类计算性能问题,您需要更深入地分析计算资源,了解哪些内核会带来延迟,哪些操作会导致瓶颈。数据科学家可以从使用 SageMaker 探查器 UI 来可视化训练作业的详细配置文件中受益。UI 提供了一个带摘要图表的控制面板和一个时间线界面,以便跟踪计算资源上的每个事件。数据科学家还可以使用 SageMaker 探查器 Python 模块来添加自定义注释以跟踪训练作业的特定部分。

对于管理员

如果您是 AWS 账户或 SageMaker AI 域的管理员,则可以通过 SageMaker AI 控制台中的探查器登录页面或 SageMaker AI 域管理探查器应用程序用户。每个域用户均能使用授予的权限访问其探查器应用程序。作为 SageMaker AI 域管理员和域用户,您可以使用相应级别的权限创建和删除探查器应用程序。