

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 可觀測性
<a name="observability"></a>

## 標準 Kubernetes 監控
<a name="observability-monitor"></a>

您可以使用`kubectl`描述和`kubectl`日誌等標準 Kubernetes 工具來監控 Spaces。

**監控空間狀態**

```
# List all Spaces with status
kubectl get workspace -A

# Get detailed information about a specific Space
kubectl describe workspace <workspace-name>
```

**檢視空間日誌**

```
# View workspace container logs
kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace

# View SSM agent sidecar logs (for remote IDE connectivity)
kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar

# Follow logs in real-time
kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f
```

**了解空間條件**

Spaces 會在其狀態中報告四種條件類型：
+ **可用**：當空間可供使用`True`時。所有必要的資源 (Pod、服務、儲存） 都正在執行且運作狀態良好。
+ **進行中**：建立、更新或調校空間`True`時。轉換為 `False`一次穩定。
+ **降級**：當 Space 資源偵測到錯誤`True`時。如需詳細資訊，請檢查條件訊息。
+ **已停止**：當空間所需狀態設定為 `True`時`Stopped`。Pod 會終止，但儲存體和組態會保留。

## CloudWatch Logs 整合
<a name="observability-cw"></a>

您可以安裝 CloudWatch 記錄附加元件，將空間日誌傳送至 Amazon CloudWatch Logs，以進行集中式日誌管理和保留。這可跨多個叢集進行日誌彙總，並與 CloudWatch Insights 整合以進行查詢和分析。上述所有可用的`kubectl`日誌都可以使用此外掛程式在 CloudWatch 中查詢。

**參考：https：**//[https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.html](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.html)。

## HyperPod 可觀測性附加元件
<a name="observability-addon"></a>

SageMaker HyperPod 可觀測性附加元件提供監控空間資源使用率的完整儀表板。安裝附加元件後，您可以在 HyperPod 主控台**的任務**索引標籤中檢視空間記憶體和 CPU 用量，該索引標籤會在 Amazon Managed Grafana 儀表板中顯示指標。

**參考：https：**//[https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-observability-addon.html](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-observability-addon.html)

**可用的關鍵指標：**
+ 每個空間的 CPU 和記憶體使用率
+ GPU 指標 （如適用）