本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
可觀測性
標準 Kubernetes 監控
您可以使用kubectl描述和kubectl日誌等標準 Kubernetes 工具來監控 Spaces。
監控空間狀態
# List all Spaces with status kubectl get workspace -A # Get detailed information about a specific Space kubectl describe workspace <workspace-name>
檢視空間日誌
# View workspace container logs kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace # View SSM agent sidecar logs (for remote IDE connectivity) kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar # Follow logs in real-time kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f
了解空間條件
Spaces 會在其狀態中報告四種條件類型:
-
可用:當空間可供使用
True時。所有必要的資源 (Pod、服務、儲存) 皆正常運作。 -
進行中:建立、更新或調校空間
True時。轉換為False一次穩定。 -
降級:當 Space 資源偵測到錯誤
True時。如需詳細資訊,請檢查條件訊息。 -
已停止:當空間所需狀態設定為
True時Stopped。Pod 會終止,但儲存體和組態會保留。
CloudWatch Logs 整合
您可以安裝 CloudWatch 記錄附加元件,將空間日誌傳送至 Amazon CloudWatch Logs,以進行集中式日誌管理和保留。這可跨多個叢集進行日誌彙總,並與 CloudWatch Insights 整合以進行查詢和分析。上述所有可用的kubectl日誌都可以使用此外掛程式在 CloudWatch 中查詢。
HyperPod 可觀測性附加元件
SageMaker HyperPod 可觀測性附加元件提供監控空間資源使用率的完整儀表板。安裝附加元件後,您可以在 HyperPod 主控台的任務索引標籤中檢視空間記憶體和 CPU 用量,該索引標籤會在 Amazon Managed Grafana 儀表板中顯示指標。
可用的關鍵指標:
-
每個空間的 CPU 和記憶體使用率
-
GPU 指標 (如適用)