本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker Autopilot 示例笔记本
以下笔记本可作为实用动手操作示例,用于处理 Autopilot 的各种使用场景。
在 SageMaker AI GitHub 示例存储库的 autopilot
我们建议在 Studio Classic 中克隆完整的 Git 仓库,以便直接访问和运行笔记本。有关如何在 Studio Classic 中克隆 Git 仓库的信息,请参见 在 Amazon SageMaker Studio 经典版中克隆 Git 存储库。
| 使用案例 | 描述 |
|---|---|
| 无服务器推理 |
默认情况下,Autopilot 允许将生成的模型部署到实时推理端点。在此存储库中,笔记本说明了如何将在 |
|
Autopilot 会检查您的数据集,并运行多个候选模型,以找出数据预处理步骤、机器学习算法和超参数的最佳组合。您可以轻松地将其部署在实时端点,也可用于批量处理。 在某些情况下,您可能希望能够灵活地将自定义数据处理代码引入 Autopilot。例如,您的数据集可能包含大量自变量,您可能希望加入一个自定义特征选择步骤,以便首先移除不相关的变量。这样得到的较小的数据集可用于启动 Autopilot 作业。最终,您可能还希望包括自定义处理代码和来自 Autopilot 的模型,以进行实时或批量处理。 |
|
|
虽然 Autopilot 简化了构建 ML 模型的过程,但 MLOps 工程师仍负责在生产环境中创建、自动化和管理端到端 ML 工作流。SageMaker Pipelines 可以协助自动执行 ML 生命周期的各种步骤,例如数据预处理、模型训练、超参数调整、模型评估和部署。本笔记本演示了如何将 Autopilot 整合到 SageMaker Pipelines 的端到端 AutoML 训练工作流中。要在 Pipelines 中启动 Autopilot 实验,您必须使用 Pipelines Lambda 或处理步骤编写自定义集成代码,从而创建模型构建工作流。有关更多信息,请参阅使用 Amazon SageMaker Pipelines 将 Amazon SageMaker Autopilot ML 模型从实验转移到生产 或者,在组合模式下使用 Autopilot 时,您可以参考笔记本示例,该示例演示了如何使用 SageMaker 管道的原生 AutoML 步骤 |
|
| 使用 Amazon SageMaker Autopilot 进行直销 |
本笔记本介绍了如何使用银行营销数据集 |
| 利用 Amazon SageMaker Autopilot 预测客户流失率 |
本笔记本介绍了使用机器学习自动识别不满意客户的方法,也称为客户流失预测。此示例说明如何分析公开提供的数据集并对其执行特征工程。接下来,它展示如何通过选择性能最佳的管道以及用于训练算法的最佳超参数来优化模型。最后,它演示如何将模型部署到托管端点,以及如何根据基本事实评估其预测结果。但是,ML 模型很少能给出完美的预测。因此,此笔记本还演示了在确定使用 ML 的财务结果时,如何考虑预测错误的相对成本。 |
| 利用 Amazon SageMaker Autopilot 和批量转换(Python SDK)预测最佳候选客户流失率 |
本笔记本还介绍了利用机器学习自动识别不满意客户的方法,也称为客户流失预测。此笔记本演示了如何配置模型以获取推理概率、选择前 N 个模型以及在留存测试集上进行批量转换以进行评估。 注意此笔记本适用于 2020 年 6 月 19 日发布的 SageMaker Python SDK 版本 1.65.1 及更高版本。 |
| 将您自己的数据处理代码引入 Amazon SageMaker Autopilot |
本笔记本介绍了如何在使用 Amazon SageMaker Autopilot 时整合和部署自定义数据处理代码。它添加了自定义特征选择步骤,以删除 Autopilot 作业中不相关的变量。然后,它展示了如何在实时端点上部署自定义处理代码和 Autopilot 生成的模型,或者用于批处理。 |
更多笔记本 |