本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
可观测性
标准 Kubernetes 监控
您可以使用kubectl描述和日志等标准 Kubernetes 工具监控空间。kubectl
监控空间状态
# List all Spaces with status kubectl get workspace -A # Get detailed information about a specific Space kubectl describe workspace <workspace-name>
查看空间日志
# View workspace container logs kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace # View SSM agent sidecar logs (for remote IDE connectivity) kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar # Follow logs in real-time kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f
了解空间状况
空间报告其状态为四种条件类型:
-
可用:
True当空间准备就绪可供使用时。所有必需的资源(Pod、服务、存储)都在运行且运行正常。 -
进度:创建、更新或协调空间
True时。过渡到False曾经的稳定状态。 -
降级:
True当检测到太空资源出现错误时。有关详细信息,请查看状况消息。 -
已停止:
True当 “所需空间” 状态设置为Stopped。Pod 已终止,但存储空间和配置仍保留。
CloudWatch 日志集成
您可以安装 CloudWatch 日志附加组件,将空间日志发送到 Amazon Lo CloudWatch gs,以便集中管理和保留日志。这支持跨多个集群的日志聚合,并与 CloudWatch Insights 集成以进行查询和分析。以上所有可用kubectl日志均可 CloudWatch 使用此插件查询。
参考:https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci .html。
HyperPod 可观测性附加组件
SageMaker HyperPod 可观测性插件提供了用于监控空间资源利用率的全面仪表板。安装插件后,您可以在控制台的 “任务” 选项卡中查看空间内存和 CPU 使用情况,该选项卡在 Amazon Managed Grafana HyperPod 控制面板中显示指标。
参考:https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-observability-addon .html
可用的关键指标:
-
每个空间的 CPU 和内存利用率
-
GPU 指标(如果适用)