SageMaker Profiler 的故障診斷
透過以下問答,來診斷使用 SageMaker Profiler 時出現的問題。
問:我收到錯誤訊息 ModuleNotFoundError: No
module named 'smppy'
自 2023 年 12 月起,SageMaker Profiler Python 套件的名稱已從 smppy 變更為 smprof,以解決套件名稱重複問題;開放原始碼套件已使用 smppy。
因此,如果您從 2023 年 12 月之前開始使用 smppy 並遇到此 ModuleNotFoundError 問題,可能是因為您訓練指令碼中的套件名稱已過期,同時也已安裝最新 smprof 套件或使用其中一個最新的 預先安裝 SageMaker Profiler 的 SageMaker AI 架構映像。在此情況下,請務必在整個訓練指令碼中,將所有提及的 smppy 取代為 smprof。
在訓練指令碼中更新 SageMaker Profiler Python 套件名稱時,為了避免混淆該使用哪個套件名稱版本,請考慮使用條件匯入陳述式,如下程式碼片段所示。
try: import smprof except ImportError: # backward-compatability for TF 2.11 and PT 1.13.1 images import smppy as smprof
另請注意,如果您在升級至最新 PyTorch 或 TensorFlow 版本時使用 smppy,請務必遵循 (選用) 安裝 SageMaker Profiler Python 套件 中的指示安裝最新 smprof 套件。
問:我收到錯誤訊息 ModuleNotFoundError: No
module named 'smprof'
首先,請確認您使用官方支援的 SageMaker AI 架構容器。如果您不使用這些容器,您可以依照 (選用) 安裝 SageMaker Profiler Python 套件 中的指示安裝 smprof 套件。
問:我無法匯入 ProfilerConfig
如果您無法使用 SageMaker Python SDK,在任務啟動器指令碼中匯入 ProfilerConfig,表示您的本機環境或 Jupyter 核心可能有過期的 SageMaker Python SDK 版本。請確認將 SDK 升級到最新版本。
$ pip install --upgrade sagemaker
問:我收到錯誤訊息 aborted: core dumped when
importing smprof into my training script
在舊版 smprof 中,PyTorch 2.0+ 和 PyTorch Lightning 會發生此問題。若要解決此問題,也請依照 (選用) 安裝 SageMaker Profiler Python 套件 中的指示安裝最新 smprof 套件。
問:我從 SageMaker Studio 找不到 SageMaker Profiler 使用者介面。要怎麼找到?
如果您可存取 SageMaker AI 主控台,請選擇下列其中一個選項。
如果您是網域使用者且無法存取 SageMaker AI 主控台,您可以透過 SageMaker Studio Classic 存取應用程式。如果您的情況是這樣,請選擇以下選項。