通过 Amazon 进行可观察性 CloudWatch - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过 Amazon 进行可观察性 CloudWatch

使用 Amazon CloudWatch Container Insigh ts 收集、汇总和汇总来自与集群关联的 EKS 集群上的容器化应用程序和微服务的指标和日志。 HyperPod

Amazon CloudWatch Insights 收集计算资源的指标,例如 CPU、内存、磁盘和网络。Container Insights 还提供诊断信息(如容器重新启动失败),以帮助您查明问题并快速解决问题。您还可以对容器洞察收集的指标设置 CloudWatch 警报。

要查找指标的完整列表,请参阅《Amazon EKS 用户指南》中的 Amazon EKS and Kubernetes Container Insights 指标

安装 CloudWatch 容器见解

集群管理员用户必须按照安装 CloudWatch 代理中的说明设置 CloudWatch Container Insights,使用 Amazon O CloudWatch bservability EKS 插件或《CloudWatch 用户指南》中的 Helm 图表。有关 Amazon EKS 附加组件的更多信息,另请参阅亚马逊 EKS 用户指南中的安装亚马逊 O CloudWatch bservability EKS 附加组件

安装完成后,验证 O CloudWatch bservability 插件在 EKS 集群插件选项卡中是否可见。控制面版加载可能需要几分钟时间。

注意

SageMaker HyperPod 需要 CloudWatch Insight v2.0.1-eksbuild.1 或更高版本。

CloudWatch Observability service card showing status, version, and IAM role information.

访问 CloudWatch 容器见解日志

  1. 打开 CloudWatch 控制台,网址为https://console.aws.amazon.com/cloudwatch/

  2. 选择 Logs(日志),然后选择 Log groups(日志组)。

将 HyperPod 集群与 Amazon Conta CloudWatch iner Insights 集成后,您可以按以下格式访问相关的日志组:/aws/containerinsights /<eks-cluster-name>/*。在此日志组中,您可以查找和浏览各种类型的日志,例如性能日志、主机日志、应用程序日志和数据面板日志。