SageMaker Profiler 的故障排除
使用以下问答对使用 SageMaker Profiler 时出现的问题进行故障排除。
问:我收到一条错误消息,ModuleNotFoundError: No
module named 'smppy'
自 2023 年 12 月起,SageMaker Profiler Python 软件包的名称从 smppy 改为 smprof,以解决软件包名称重复的问题;smppy 已被一个开源软件包使用。
因此,如果您在 2023 年 12 月之前一直在使用 smppy 并遇到此 ModuleNotFoundError 问题,则可能是由于您的训练脚本中的软件包名称过时,同时安装了最新的 smprof 软件包或使用了最新的 预安装了 SageMaker 探查器的 SageMaker AI 框架映像 软件包。在这种情况下,请确保在整个训练脚本中将所有提及的 smppy 替换为 smprof。
在训练脚本中更新 SageMaker Profiler Python 软件包名称时,为避免混淆应使用哪个版本的软件包名称,可考虑使用条件导入语句,如以下代码片段所示。
try: import smprof except ImportError: # backward-compatability for TF 2.11 and PT 1.13.1 images import smppy as smprof
另请注意,如果您在升级到最新 PyTorch 或 TensorFlow 版本时一直在使用 smppy,请确保按照 (可选)安装 SageMaker Profiler Python 软件包 的说明安装最新 smprof 软件包。
问:我收到一条错误消息,ModuleNotFoundError: No
module named 'smprof'
首先,确保使用官方支持的 SageMaker AI 框架容器之一。如果您不使用其中一个,则可以按照 (可选)安装 SageMaker Profiler Python 软件包 中的说明安装 smprof 软件包。
问:我无法导入 ProfilerConfig
如果您使用 SageMaker Python SDK 无法导入作业启动器脚本中的 ProfilerConfig,则您的本地环境或 Jupyter 内核可能具有严重过时的 SageMaker Python SDK 版本。确保将 SDK 升级到最新版本。
$ pip install --upgrade sagemaker
问:我收到一条错误消息,aborted: core dumped when
importing smprof into my training script
在 smprof 的早期版本中,PyTorch 2.0+ 和 PyTorch Lightning 会出现此问题。要解决此问题,还要按照 (可选)安装 SageMaker Profiler Python 软件包 中的说明安装最新的 smprof 软件包。
问:我无法从 SageMaker Studio 找到 SageMaker Profiler 用户界面。如何找到它?
如果您可以访问 SageMaker AI 控制台,请选择以下选项之一。
如果您是域用户,但无法访问 SageMaker AI 控制台,则可以通过 SageMaker Studio Classic 访问应用程序。如果是这种情况,请选择以下选项。