

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 可观测性
<a name="observability"></a>

## 标准 Kubernetes 监控
<a name="observability-monitor"></a>

您可以使用`kubectl`描述和日志等标准 Kubernetes 工具监控空间。`kubectl`

**监控空间状态**

```
# List all Spaces with status
kubectl get workspace -A

# Get detailed information about a specific Space
kubectl describe workspace <workspace-name>
```

**查看空间日志**

```
# View workspace container logs
kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace

# View SSM agent sidecar logs (for remote IDE connectivity)
kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar

# Follow logs in real-time
kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f
```

**了解空间状况**

空间报告其状态为四种条件类型：
+ **可用**：`True`当空间准备就绪可供使用时。所有必需的资源（Pod、服务、存储）都在运行且运行正常。
+ **进**度：创建、更新或协调空间`True`时。过渡到`False`曾经的稳定状态。
+ **降级**：`True`当检测到太空资源出现错误时。有关详细信息，请查看状况消息。
+ **已停止**：`True`当 “所需空间” 状态设置为`Stopped`。Pod 已终止，但存储空间和配置仍保留。

## CloudWatch 日志集成
<a name="observability-cw"></a>

您可以安装 CloudWatch 日志附加组件，将空间日志发送到 Amazon Lo CloudWatch gs，以便集中管理和保留日志。这支持跨多个集群的日志聚合，并与 CloudWatch Insights 集成以进行查询和分析。以上所有可用`kubectl`日志均可 CloudWatch 使用此插件查询。

**参考：https://docs.aws.amazon.com/sagemaker/**[latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci .html。](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.html)

## HyperPod 可观测性附加组件
<a name="observability-addon"></a>

 SageMaker HyperPod 可观测性插件提供了用于监控空间资源利用率的全面仪表板。安装插件后，您可以在控制台的 “**任务**” 选项卡中查看空间内存和 CPU 使用情况，该选项卡在 Amazon Managed Grafana HyperPod 控制面板中显示指标。

**参考：https://docs.aws.amazon.com/sagemaker/**[latest/dg/sagemaker-hyperpod-observability-addon .html](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-observability-addon.html)

**可用的关键指标：**
+ 每个空间的 CPU 和内存利用率
+ GPU 指标（如果适用）