可觀測性 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

可觀測性

標準 Kubernetes 監控

您可以使用kubectl描述和kubectl日誌等標準 Kubernetes 工具來監控 Spaces。

監控空間狀態

# List all Spaces with status kubectl get workspace -A # Get detailed information about a specific Space kubectl describe workspace <workspace-name>

檢視空間日誌

# View workspace container logs kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace # View SSM agent sidecar logs (for remote IDE connectivity) kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar # Follow logs in real-time kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f

了解空間條件

Spaces 會在其狀態中報告四種條件類型:

  • 可用:當空間可供使用True時。所有必要的資源 (Pod、服務、儲存) 皆正常運作。

  • 進行中:建立、更新或調校空間True時。轉換為 False一次穩定。

  • 降級:當 Space 資源偵測到錯誤True時。如需詳細資訊,請檢查條件訊息。

  • 已停止:當空間所需狀態設定為 TrueStopped。Pod 會終止,但儲存體和組態會保留。

CloudWatch Logs 整合

您可以安裝 CloudWatch 記錄附加元件,將空間日誌傳送至 Amazon CloudWatch Logs,以進行集中式日誌管理和保留。這可跨多個叢集進行日誌彙總,並與 CloudWatch Insights 整合以進行查詢和分析。上述所有可用的kubectl日誌都可以使用此外掛程式在 CloudWatch 中查詢。

參考:https://https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.html

HyperPod 可觀測性附加元件

SageMaker HyperPod 可觀測性附加元件提供監控空間資源使用率的完整儀表板。安裝附加元件後,您可以在 HyperPod 主控台的任務索引標籤中檢視空間記憶體和 CPU 用量,該索引標籤會在 Amazon Managed Grafana 儀表板中顯示指標。

參考:https://https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-observability-addon.html

可用的關鍵指標:

  • 每個空間的 CPU 和記憶體使用率

  • GPU 指標 (如適用)