

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker Profiler
<a name="train-use-sagemaker-profiler"></a>


|  | 
| --- |
| Amazon SageMaker Profiler 目前為預覽版本，可在支援的 AWS 區域免費提供。Amazon SageMaker Profiler 的正式發布版本 (如果有) 可能包含與預覽版本提供的功能及定價有所不同。 | 

Amazon SageMaker Profiler 是 Amazon SageMaker AI 的一項功能，可提供在 SageMaker AI 訓練深度學習模型期間佈建的 AWS 運算資源提供詳細檢視。它著重於分析 CPU 及 GPU 的使用情況，GPU 的核心執行、CPU 的核心啟動、同步操作、跨 CPU 與 GPU 的記憶體操作、核心啟動以及相對應執行之間的延遲以及 CPU 和 GPU 之間的資料傳輸。SageMaker Profiler 也提供使用者介面 (UI)，可將*設定檔*視覺化、分析事件的統計總結，以及訓練任務的時間軸，用於追蹤及瞭解 GPU 與 CPU 之間事件的時間關係。

**注意**  
SageMaker Profiler 支援 PyTorch 及 TensorFlow，並可在 [SageMaker AI 的AWS 深度學習容器使用](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)。如需進一步了解，請參閱[支援的架構映像 AWS 區域和執行個體類型](profiler-support.md)。

**對於資料科學家**

在大型運算叢集訓練深度學習模型通常會遇到運算最佳化問題，例如瓶頸、核心啟動延遲、記憶體限制以及資源使用率低。

若要識別此類運算效能問題，您需要深入分析運算資源，以瞭解哪些核心會導致延遲，以及哪些作業會造成瓶頸。資料科學家可以從使用 SageMaker Profiler 使用者介面視覺化訓練任務的詳細資料受益。使用者介面提供儀表板，其中包含總結圖表和時間軸介面，可追蹤運算資源的每個事件。資料科學家也可以使用 SageMaker Profiler Python 模組新增自訂註釋，以追蹤訓練任務的某些部分。

**對於管理員**

如果您是 AWS 帳戶或 SageMaker AI 網域的管理員，您可以透過 SageMaker AI 主控台或 [SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/sm-domain.html) SageMaker 應用程式使用者。每個網域使用者都可以在授予的權限存取自己的 Profiler 應用程式。身為 SageMaker AI 網域管理員及網域使用者，您可以根據您擁有的許可層級建立並刪除 Profiler 應用程式。

**Topics**
+ [支援的架構映像 AWS 區域和執行個體類型](profiler-support.md)
+ [SageMaker Profiler 的先決條件](profiler-prereq.md)
+ [使用 SageMaker Profiler 準備並執行訓練任務](profiler-prepare.md)
+ [開啟 SageMaker Profiler 使用者介面應用程式](profiler-access-smprofiler-ui.md)
+ [探索 SageMaker Profiler 使用者介面視覺化的設定檔輸出資料](profiler-explore-viz.md)
+ [SageMaker Profiler 的故障診斷](profiler-faq.md)