

我们不再更新 Amazon Machine Learning 服务，也不再接受新用户使用该服务。本文档可供现有用户使用，但我们不会再对其进行更新。有关更多信息，请参阅[什么是 Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html)。

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 步骤 2：创建训练数据源
<a name="step-2-create-a-datasource"></a>

在将 `banking.csv` 数据集上传到 Amazon Simple Storage Service (Amazon S3) 位置之后，您可以用它来创建训练数据源。数据源是 Amazon Machine Learning (Amazon ML) 对象，包含输入数据的位置以及有关输入数据的重要元数据。Amazon ML 将数据源用于 ML 模型训练和评估等操作。

要创建数据源，请提供以下信息：
+  您数据的 Amazon S3 位置以及数据访问权限 
+  架构，其中包含数据中各属性的名称及其类型（数值、文本、分类或二进制） 
+  属性的名称，该属性包含您希望 Amazon ML 学习进行预测的答案，即目标属性 

**注意**  
数据源并不实际存储您的数据，只是引用它。避免移动或更改在 Amazon S3 中存储的文件。否则，Amazon ML 无法访问它们来创建 ML 模型、生成评估或生成预测。

**创建训练数据源**

1. 打开 Amazon Machine Learning 控制台，网址为[https://console.aws.amazon.com/machinelearning/](https://console.aws.amazon.com/machinelearning/)。

1.  选择**开始**。
**注意**  
本教程假定您是首次使用 Amazon ML。如果您以前使用过 Amazon ML，则可以使用 Amazon ML 控制面板上的**新建...**下拉列表来创建新的数据源。

1. 在 **Amazon Machine Learning 入门**页面上，选择**启动**。  
![](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/get-started-launch.png)

1. 在**输入数据**页面上，对于**您的数据位于何处?**，确保选择了 **S3**。  
![](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image5.png)

1. 对于**S3 位置**，键入来自“步骤 1：准备数据”中的 `banking.csv ` 文件的完整位置。例如：{{your-bucket}}**/banking.csv**。Amazon ML 会为您添加 s3:// 到存储桶名称前。

1. 为**数据源名称** 键入 **Banking Data 1**。  
![](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image6.png)

1. 选择**验证**。

1. 在 **S3 权限**对话框中，选择**是**。  
![](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image7.png)

1.  如果 Amazon ML 可以访问和读取 S3 位置中的数据文件，您将看到类似以下内容的页面。检查属性，然后选择**继续**。  
![](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image8.png)

接下来，建立架构。*架构*是 Amazon ML 解释 ML 模型的输入数据时需要的信息，包括属性名、为属性分配的数据类型以及特殊属性的名称。有两种方法可以向 Amazon ML 提供架构：
+  在上传您的 Amazon S3 数据时提供单独的架构文件。
+  允许 Amazon ML 推断属性类型并为您创建架构。

在本教程中，我们将要求 Amazon ML 推断架构。

有关创建单独架构文件的信息，请参阅[为 Amazon ML 创建数据架构](creating-a-data-schema-for-amazon-ml.md)。

**允许 Amazon ML 推断架构**

1. 在**架构**页面上，Amazon ML 显示所推断的架构。检查 Amazon ML 为属性推断的数据类型。非常重要的一点是，向属性分配了正确的数据类型，以帮助 Amazon ML 正确提取数据并对属性实现正确的特征处理。
   + 只能有两种可能状态（例如 yes 或 no）的属性应标记为**二进制**。
   + 用于表示类别的数字或字符串属性应标记为 **Categorical**。
   + 对于数值数量的属性，如果其顺序有意义，则应标记为 **Numeric**。
   + 对于字符串属性，如果您希望将其视为空格分隔单词的字符串，则应标记为 **Text**。  
![](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image10.png)

1. 在本教程中，Amazon ML 能正确识别所有属性的数据类型，因此选择**继续**。

接下来，选择目标属性。

请记住，目标是 ML 模型必须学习预测的属性。属性 **y** 指示某个人过去是否订阅了营销活动：1（是）或 0（否）。

**注意**  
仅当您使用数据源来训练和评估 ML 模型时，才选择目标属性。

**选择 y 作为目标属性**

1. 在表的右下角中，选择单箭头以继续到表的下一页，其中显示了名为 `y` 的属性。  
![](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image11.png)

1. 在**目标**列中，选择 `y`。  
![](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image12.png)

   Amazon ML 确认已选择 **y** 作为目标。

1. 选择**继续**。

1. 在**行 ID** 页面上，对**您的数据是否包含标识符?**，确保已选择默认设置**否**。

1. 选择**审核**，然后选择**继续**。

现在您有一个训练数据源，您已准备好[创建模型](step-3-create-an-ml-model.md)。