生成报告 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

生成报告

本指南提供了配置和管理 SageMaker HyperPod 集群使用情况报告的 step-by-step说明。按照这些过程操作,部署基础设施、生成自定义报告,并在不再需要资源时将其移除。

设置使用情况报告

注意

在 SageMaker HyperPod 集群中配置 SageMaker HyperPod 使用情况报告基础设施之前,请确保您已满足本文中详述的所有先决条件README.md

中的使用情况报告 HyperPod 需要:

  • SageMaker HyperPod 使用CloudFormation堆栈部署使用情况报告AWS资源

  • 通过 Helm 图表安装 SageMaker HyperPod 使用报告 Kubernetes 运算符

您可以在SageMaker HyperPod 使用情况报告 GitHub 存储库中找到全面的安装说明。具体而言,请按照设置部分中的步骤进行操作。

按需生成使用情况报告

安装使用情况报告基础设施和 Kubernetes 操作员后, SageMaker HyperPod 集群的任务数据将自动收集并存储在您在设置期间配置的 S3 存储桶中。运算符会在后台持续捕获详细的使用情况指标,并在您指定的 S3 存储桶的 raw 目录中创建原始数据文件。

要生成按需使用情况报告,您可以使用使用情况报告 GitHub 存储库中SageMaker HyperPod 提供的run.py脚本来提取和导出使用情况指标。具体而言,您可以在生成报告部分中查找用于生成报告的脚本和完整说明。

该脚本可让您:

  • 为报告生成指定自定义日期范围

  • 在详细报告类型和摘要报告类型之间进行选择

  • 以 CSV 或 PDF 格式导出报告

  • 将报告定向到特定的 S3 位置

清理使用情况报告资源

当您不再需要 SageMaker HyperPod 使用情况报告基础设施时,请按照清理资源中的步骤清理 Kubernetes 操作员和AWS资源(按顺序排列)。正确删除资源有助于避免不必要的成本。