本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker Profiler
|
Amazon SageMaker Profiler 目前為預覽版本,可在支援的 AWS 區域 免費提供。Amazon SageMaker Profiler 的正式發布版本 (如果有) 可能包含與預覽版本提供的功能及定價有所不同。 |
Amazon SageMaker Profiler 是 Amazon SageMaker AI 的一項功能,可提供在 SageMaker AI 訓練深度學習模型期間佈建的 AWS 運算資源提供詳細檢視。它著重於分析 CPU 及 GPU 的使用情況,GPU 的核心執行、CPU 的核心啟動、同步操作、跨 CPU 與 GPU 的記憶體操作、核心啟動以及相對應執行之間的延遲以及 CPU 和 GPU 之間的資料傳輸。SageMaker 剖析工具也提供使用者介面 (UI),可將設定檔視覺化、已分析事件的統計摘要,以及訓練任務的時間軸,用於追蹤和瞭解 GPU 和 CPU 之間事件的時間關係。
注意
SageMaker Profiler 支援 PyTorch 及 TensorFlow,並可在 SageMaker AI 的 AWS 深度學習容器使用
對於資料科學家
在大型運算叢集訓練深度學習模型通常會遇到運算最佳化問題,例如瓶頸、核心啟動延遲、記憶體限制以及資源使用率低。
若要識別此類運算效能問題,您需要深入分析運算資源,以瞭解哪些核心會導致延遲,以及哪些作業會造成瓶頸。資料科學家可以從使用 SageMaker Profiler 使用者介面視覺化訓練任務的詳細資料受益。使用者介面提供儀表板,其中包含總結圖表和時間軸介面,可追蹤運算資源的每個事件。資料科學家也可以使用 SageMaker Profiler Python 模組新增自訂註釋,以追蹤訓練任務的某些部分。
針對管理員
如果您是 AWS 帳戶或 SageMaker AI 網域的管理員,則可以透過 SageMaker AI 主控台或 SageMaker AI 網域的 Profiler 登陸頁面管理 Profiler 應用程式使用者。每個網域使用者都可以在授予的權限存取自己的 Profiler 應用程式。身為 SageMaker AI 網域管理員及網域使用者,您可以根據您擁有的許可層級建立並刪除 Profiler 應用程式。