本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker HyperPod 可觀測性儀表板
本主題說明如何檢視 Amazon SageMaker HyperPod (SageMaker HyperPod) 叢集的指標儀表板,以及如何將新使用者新增至儀表板。主題也會說明不同類型的儀表板。
存取儀表板
若要在 Amazon Managed Grafana 中檢視 SageMaker HyperPod 叢集的指標,請執行下列步驟:
開啟位於 https://https://console.aws.amazon.com/sagemaker/
的 Amazon SageMaker AI 主控台。 -
前往叢集的詳細資訊頁面。
-
在儀表板索引標籤上,找到 HyperPod 可觀測性區段,然後選擇在 Grafana 中開啟儀表板。
將新使用者新增至 Amazon Managed Grafana 工作區
如需有關如何將使用者新增至 Amazon Managed Grafana 工作區的資訊,請參閱《Amazon Managed Grafana 使用者指南》中的將 AWS IAM Identity Center 與 Amazon Managed Grafana 工作區搭配使用。
可觀測性儀表板
SageMaker HyperPod 可觀測性附加元件會在您的預設 Amazon Managed Grafana 工作區中提供五個互連儀表板。每個儀表板都為資料科學家、機器學習工程師和管理員等各種使用者提供有關叢集中不同資源和任務的深入見解。
任務儀表板
任務儀表板可全面監控和視覺化 SageMaker HyperPod 任務的資源使用率指標。主面板會依父任務顯示詳細的資料表分組資源用量,顯示 CPU、GPU 和跨 Pod 的記憶體使用率。互動式時間序列圖表會追蹤所選 Pod 的 CPU 使用量、系統記憶體使用量、GPU 使用率百分比和 GPU 記憶體使用量,讓您監控一段時間內的效能趨勢。儀表板透過叢集名稱、命名空間、任務類型和特定 Pod 等變數提供強大的篩選功能,讓您輕鬆深入了解特定工作負載。此監控解決方案對於最佳化資源配置和維護 SageMaker HyperPod 上機器學習工作負載的效能至關重要。
訓練儀表板
訓練儀表板提供訓練任務運作狀態、可靠性和故障管理指標的完整監控。儀表板具有關鍵效能指標,包括任務建立計數、成功率和執行時間百分比,以及自動和手動重新啟動事件的詳細追蹤。它透過圓餅圖和熱度圖提供詳細的故障模式視覺效果,依類型和修復延遲細分事件,讓您識別重複性問題並最佳化任務可靠性。界面包括即時監控關鍵指標,例如系統復原時間和故障偵測延遲,使其成為維持訓練工作負載高可用性的重要工具。此外,儀表板的 24 小時追蹤時段提供歷史背景,用於分析訓練任務效能中的趨勢和模式,協助團隊在影響生產工作負載之前主動解決潛在問題。
推論儀表板
推論儀表板可全面監控多個維度的模型部署效能和運作狀態指標。它具有主動部署的詳細概觀、請求率的即時監控、成功百分比和延遲指標,可讓您追蹤模型服務效能並識別潛在的瓶頸。儀表板包含適用於一般推論指標和語言模型字符特定指標的特殊面板,例如首次字符的時間 (TTFT) 和字符輸送量,因此對於監控大型語言模型部署特別有用。此外,它透過 Pod 和節點配置追蹤提供基礎設施洞察,同時提供詳細的錯誤分析功能,以協助維持推論工作負載的高可用性和效能。
叢集儀表板
叢集儀表板提供叢集運作狀態和效能的完整檢視,可讓您即時查看 Amazon SageMaker HyperPod (SageMaker HyperPod) 環境中的運算、記憶體、網路和儲存資源。一目了然,您可以透過直覺式界面檢視關鍵指標,包括總執行個體、GPU 使用率、記憶體使用量和網路效能,該界面每隔幾秒會自動更新資料。儀表板會分為邏輯區段,從高階叢集概觀開始,顯示運作狀態良好的執行個體百分比和總資源計數等關鍵指標,接著是 GPU 效能、記憶體使用率、網路統計資料和儲存指標的詳細區段。每個區段都具有互動式圖形和面板,可讓您深入了解特定指標,並具有可自訂的時間範圍,以及依叢集名稱、執行個體或 GPU ID 篩選選項。
檔案系統儀表板
檔案系統儀表板提供檔案系統 (Amazon FSx for Lustre) 效能和運作狀態指標的完整可見性。儀表板會顯示重要的儲存指標,包括可用容量、節省重複資料刪除、CPU/記憶體使用率、磁碟 IOPS、輸送量,以及跨多個視覺化的用戶端連線。您可以監控 CPU 和記憶體用量等系統層級效能指標,以及讀取/寫入操作和磁碟使用率模式等儲存體特定指標。界面包含警示監控功能和詳細的時間序列圖表,用於追蹤一段時間內的效能趨勢,因此對於主動維護和容量規劃來說非常有用。此外,透過其全面的指標涵蓋範圍,儀表板有助於識別潛在的瓶頸、最佳化儲存效能,並確保 SageMaker HyperPod 工作負載的可靠檔案系統操作。