本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
生成报告
本指南提供了配置和管理 SageMaker HyperPod 集群使用情况报告的 step-by-step说明。按照以下步骤部署基础架构,生成自定义报告,并在不再需要时移除资源。
设置使用情况报告
注意
在 SageMaker HyperPod 集群中配置 SageMaker HyperPod 使用情况报告基础设施之前,请确保您已满足本文中详述的所有先决条件README.md
中的使用情况报告 HyperPod 需要:
-
SageMaker HyperPod 使用 CloudFormation 堆栈部署使用情况报告 AWS 资源
-
通过 Helm 图表安装 SageMaker HyperPod 使用报告 Kubernetes 运算符
您可以在SageMaker HyperPod 使用情况报告 GitHub 存储库
按需生成使用情况报告
安装使用情况报告基础设施和 Kubernetes 操作员后, SageMaker HyperPod 集群的任务数据将自动收集并存储在您在设置期间配置的 S3 存储桶中。操作员在后台持续捕获详细的使用指标,在您指定的 S3 存储桶的raw目录中创建原始数据文件。
要生成按需使用情况报告,您可以使用使用情况报告 GitHub 存储库run.py脚本来提取和导出使用情况指标。具体而言,您可以在 “生成报告” 部分找到生成报告的脚本和全面说明。
该脚本允许您:
-
为报告生成指定自定义日期范围
-
在详细报告类型和摘要报告类型之间进行选择
-
以 CSV 或 PDF 格式导出报告
-
将报告定向到特定的 S3 地点
清理使用情况报告资源
当您不再需要 SageMaker HyperPod 使用情况报告基础设施时,请按照清理资源中的步骤清理