本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon Managed Grafana 和 Amazon Managed Service for Prometheus 的 Amazon SageMaker HyperPod 可觀測性
Amazon SageMaker HyperPod (SageMaker HyperPod) 提供全面且out-of-the-box儀表板,讓您深入了解基礎模型 (FM) 開發任務和叢集資源。這個統一的可觀測性解決方案會自動將關鍵指標發佈至 Amazon Managed Service for Prometheus,並在 Amazon Managed Grafana 儀表板中顯示這些指標。儀表板專門針對具有硬體運作狀態、資源使用率和任務層級效能的深度涵蓋的 FM 開發進行最佳化。使用此附加元件,您可以整合來自 NVIDIA DCGM、執行個體層級 Kubernetes 節點匯出程式、Elastic Fabric Adapter、整合檔案系統、Kubernetes APIs、Kue 和 SageMaker HyperPod 任務運算子的運作狀態和效能資料。