本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 自定义模型的工作原理
<a name="canvas-build-model"></a>

使用 Amazon SageMaker Canvas 在您导入的数据集上构建自定义模型。使用您构建的模型对新数据进行预测。 SageMaker Canvas 使用数据集中的信息构建多达 250 个模型，然后选择性能最好的模型。

当您开始构建模型时，Canvas 会自动推荐一种或多种*模型类型*。模型类型可分为以下几类：
+ **数值预测** – 这在机器学习中被称为*回归*。要对数值数据进行预测时，请使用数值预测模型类型。例如，您可能想根据房屋面积等特征预测房屋价格。
+ **分类预测** – 这在机器学习中被称为*分类*。当您希望将数据分类成组时，请使用分类预测模型类型：
  + **2 类别预测** – 当您要对数据进行两个类别的预测时，请使用 2 类别预测模型类型（在机器学习中也称为*二元分类*）。例如，您可能希望确定客户是否可能流失。
  + **3\$1 类别预测** – 当您要对数据进行三个或更多类别的预测时，请使用 3\$1 类别预测模型类型（在机器学习中也称为*多元分类*）。例如，您可能希望根据以往的付款情况等特征来预测客户的贷款状态。
+ **时间序列预测** - 当您要对一段时间进行预测时，可使用时间序列预测。例如，您可能想要预测下一季度将销售的商品数量。有关时间序列预测的信息，请参阅 [Amazon SageMaker Canvas 中的时间序列预测](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-time-series.html)。
+ **图像预测** – 要为图像分配标签时，请使用单标签图像预测模型类型（在机器学习中也称为*单标签图像分类*）。例如，您可能希望对产品图片中不同类型的制造缺陷进行分类。
+ **文本预测** – 要为文本段落分配标签时，请使用多元文本预测模型类型（在机器学习中也称为*多元文本分类*）。例如，您可能有一个产品买家评论数据集，您想确定买家是喜欢还是不喜欢该产品。您可以让模型预测给定的文本段落是`Positive`、`Negative`还是`Neutral`。

有关每种模型类型支持的输入数据类型的表，请参阅[自定义模型](canvas-custom-models.md)。

对于您构建的每个表格数据模型（包括数值、分类、时间序列预测和文本预测模型），您可以选择**目标列**。**目标列**是包含要预测的信息的列。例如，如果您要构建一个模型来预测人们是否取消了订阅，则**目标列**包含的数据点为 `yes` 或 `no`，都与某人的取消状态有关。

对于图像预测模型，您可以使用已分配标签的图像数据集来构建模型。对于您提供的未标注图像，模型会预测一个标签。例如，如果您要构建模型来预测图像是猫还是狗，则在构建模型时需要提供标注为猫或狗的图像。然后，模型可以接受未标注的图像并将其预测为猫或狗。

**在构建模型时发生的情况**

要构建模型，您可以选择**快速构建**或**标准构建**。**快速构建**的构建时间较短，但**标准构建**的精度通常更高。

对于表格预测模型和时间序列预测模型，Canvas 使用*缩减采样*来分别减小超过 5 GB 或 30 GB 的数据集的大小。Canvas 采用分层采样方法进行缩减采样。下表列出了按模型类型列出的缩减采样的大小。要控制采样过程，您可以使用 Canvas 中的 Data Wrangler，使用自己喜欢的采样技术进行采样。对于时间序列数据，您可以通过重新采样来汇总数据点。有关采样的更多信息，请参阅 [采样](canvas-transform.md#canvas-transform-sampling)。有关对时间序列数据进行重新采样的更多信息，请参阅 [重新采样时间序列数据](canvas-transform.md#canvas-resample-time-series)。

如果您选择在超过 50000 行的数据集上进行**快速构建**，则 Canvas 会将数据采样到 50000 行，从而缩短模型训练时间。

下表总结了模型构建过程的主要特征，包括每个模型和构建类型的平均构建时间、使用大型数据集构建模型时的缩减采样大小，以及每个构建类型所需的最少和最多数据点数量。


| 限制 | 数值预测和分类预测 | 时间序列预测 | 图像预测 | 文本预测 | 
| --- | --- | --- | --- | --- | 
| **快速构建**时间 | 2‐20 分钟 | 2‐20 分钟 | 15‐30 分钟 | 15‐30 分钟 | 
| **标准构建**时间 | 2‐4 小时 | 2‐4 小时 | 2‐5 小时 | 2‐5 小时 | 
| 缩减采样大小（Canvas 缩减采样后大型数据集的大小减小） | 5 GB | 30 GB | 不适用 | 不适用 | 
| **快速构建**的最小条目（行）数 |  2 类别：500 行 3\$1 类别、数值、时间序列：不适用  | 不适用 | 不适用 | 不适用 | 
| **标准构建**的最小条目数（行、图像或文档） | 250 | 50 | 50 | 不适用 | 
| **快速构建**的最大条目数（行、图像或文档） | 不适用 | 不适用 | 5000 | 7500 | 
| **标准构建**的最大条目数（行、图像或文档） | 不适用 | 15万 | 180,000 | 不适用 | 
| 最大列数 | 1000 | 1000 | 不适用 | 不适用 | 

Canvas 使用数据集其余部分中的信息来预测值，具体取决于模型类型：
+ 对于分类预测，Canvas 将每行归入**目标列**中列出的类别之一。
+ 对于数值预测，Canvas 使用数据集中的信息来预测**目标列**中的数值。
+ 对于时间序列预测，Canvas 使用历史数据来预测未来**目标列**的值。
+ 对于图像预测，Canvas 使用已分配标签的图像来预测未标注图像的标签。
+ 对于文本预测，Canvas 会分析已分配标签的文本数据，以预测未标注文本段落的标签。

**有助于您构建模型的其他功能**

在构建模型之前，您可以使用 Canvas 中的 Data Wrangler，使用 300 多种内置转换和运算符准备数据。Data Wrangler 支持表格数据集和映像数据集的转换。此外，您还可以连接到 Canvas 以外的数据来源，创建作业对整个数据集进行转换，并导出经过充分准备和清理的数据，以用于 Canvas 之外的 ML 工作流程。有关更多信息，请参阅 [数据准备](canvas-data-prep.md)。

要查看可视化和分析结果以了解数据并确定在模型中包含哪些功能，您可以使用 Data Wrangler 的内置分析功能。您还可以访问**数据质量和见解报告**，此报告重点介绍了数据集的潜在问题，并提供了如何解决这些问题的建议。有关更多信息，请参阅 [进行探索性数据分析 (EDA)](canvas-analyses.md)。

除了 Data Wrangler 提供的高级数据准备和探索功能外，Canvas 还提供了一些可供您使用的基本功能：
+ 要过筛选数据并访问一组基本数据转换，请参阅 [为模型构建准备数据](canvas-prepare-data.md)。
+ 要访问用于功能探索的简单可视化和分析，请参阅 [数据探索和分析](canvas-explore-data.md)。
+ 要进一步了解其他功能，例如预览模型、验证数据集以及更改用于构建模型的随机样本的大小，请参阅[预览模型](canvas-preview-model.md)。

对于包含多列的表格数据集（例如用于构建分类、数值或时间序列预测模型类型的数据集），可能存在缺少数据点的行。当 Canvas 构建模型时，它会自动添加缺失值。Canvas 使用数据集中的值对缺失值进行数学近似计算。为了获得最高的模型精度，我们建议您在能找到缺失数据的情况下将其添加进来。请注意，文本预测或图像预测模型不支持缺失数据特征。

**开始使用**

要开始构建自定义模型，请参阅[构建模型](canvas-build-model-how-to.md)，按照要构建的模型类型的相应步骤进行操作。