本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker Debugger 深入分析儀表板控制器
有用於監控和分析偵錯工具控制器的不同元件。在本指南中,您將瞭解偵錯工具控制器元件。
注意
SageMaker Debugger Insights 儀表板會在ml.m5.4xlarge執行個體上執行 Studio Classic 應用程式,以處理和轉譯視覺化效果。每個 SageMaker Debugger Insights 索引標籤都會執行一個 Studio Classic 核心工作階段。在單一執行個體上執行多個 SageMaker Debugger 深入分析索引標籤的多個核心工作階段。當您關閉 SageMaker Debugger 深入分析索引標籤時,對應的核心工作階段也會關閉。Studio Classic 應用程式會保持作用中狀態,並產生ml.m5.4xlarge執行個體用量的費用。有關定價的資訊,請參閱Amazon SageMaker 定價
重要
使用 SageMaker Debugger 深入分析儀表板後,請將 ml.m5.4xlarge 執行個體關機以避免產生費用。如需如何將執行個體關機的指示,請參閱將 Amazon SageMaker Debugger 深入分析執行個體關機。
SageMaker Debugger 深入分析控制器
使用深入分析儀表板左上角的偵錯工具控制器,您可以重新整理儀表板、設定或更新偵錯工具設定以監控系統指標、停止訓練工作,以及下載偵錯工作分析報告。
-
如果您想要手動重新整理儀表板,請選擇重新整理按鈕 (左上角的圓形箭頭),如前面的螢幕擷取畫面所示。
-
對於使用 SageMaker Python SDK 啟動的所有 SageMaker 訓練工作,監控切換按鈕預設為開啟。如果未啟用,可以使用切換按鈕開始監控。在監控期間,偵錯工具只會收集資源使用率指標,以偵測 CPU 瓶頸和 GPU 使用量過低等運算問題。如需偵錯工具監控的資源使用率問題完整清單,請參閱偵錯工具內建規則,以分析硬體系統資源使用率 (系統指標)。
-
設定監控 按鈕會開啟快顯視窗,您可以使用該快顯視窗設定或更新資料收集頻率,以及儲存資料的 S3 路徑。
您可以指定下列欄位的值。
-
S3 儲存貯體 URI:指定基礎 S3 儲存貯體 URI。
-
收集監控資料,每隔:選取收集系統指標的時間間隔。您可以從下拉式清單中選取其中一個監控間隔。可用的間隔為 100 毫秒、200 毫秒、500 毫秒 (預設值)、1 秒、5 秒和 1 分鐘。
注意
如果您選擇較低的時間間隔之一,則會增加資源使用率指標的精細程度,以便您可以用較高的時間解析度擷取尖峰和異常狀況。但是,解析度越高,要處理的系統指標量就越大。這可能會導致額外的負荷,並影響總體的訓練和處理時間。
-
-
使用停止訓練按鈕,您可以在發現資源使用率有異常狀況時停止訓練工作。
-
使用下載報告按鈕,您可以使用 SageMaker Debugger 內建的 ProfilerReport規則,下載彙總的分析報告。當您將內建的 ProfilerReport 規則新增至估算器時,會啟動此按鈕。如需更多資訊,請參閱設定內建剖析工具規則和使用 SageMaker Debugger 產生分析報告。