

我们不再更新 Amazon Machine Learning 服务，也不再接受新用户使用该服务。本文档可供现有用户使用，但我们不会再对其进行更新。有关更多信息，请参阅[什么是 Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html)。

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 步骤 1：准备数据
<a name="step-1-download-edit-and-upload-data"></a>

在机器学习中，您通常会获取数据并确保它经过了正确格式化，然后再开始训练过程。出于本教程的目的，我们从 [UCI 机器学习存储库](http://archive.ics.uci.edu/ml/)获取示例数据集，将其格式化以遵循 Amazon ML 指南，并使其可供您下载。按照本主题中的以下过程操作，从我们的 Amazon Simple Storage Service (Amazon S3) 存储位置下载数据集，并将其上传到您自己的 S3 存储桶。

 有关 Amazon ML 格式化要求，请参阅[了解 Amazon ML 的数据格式](understanding-the-data-format-for-amazon-ml.md)。

**下载数据集**

1. 单击 [banking.zip](samples/banking.zip)，下载包含客户历史记录数据的文件，这些客户购买的产品与您的银行定期存款类似。解压缩该文件夹并将 banking.csv 文件保存到您的计算机上。

1. 单击 [banking-batch.zip](samples/banking-batch.zip)，下载您将用来预测潜在客户是否会响应您方案的文件。解压缩该文件夹并将 banking-batch.csv 文件保存到您的计算机上。

1.  打开 `banking.csv`。您将看到数据的行和列。*标题行* 包含各列的属性名称。*属性* 是指定的唯一属性，描述各客户的具体特征；例如 nr\_employed 指示客户的雇佣状态。各行表示各个客户的相关观察的集合。  
![CSV 文件显示标题行，数据行上方的列名为 euribor3m、nr_employed 和 y。](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image1.png)

   您希望 ML 模型回答问题“此客户是否会订阅我的新产品？”。在 `banking.csv` 数据集中，此问题的答案是属性 **y**，该属性包含值 1（表示“是”）或 0（表示“否”）。您希望 Amazon ML 用来学习如何进行预测的属性称为*目标属性*。
**注意**  
属性 **y** 是一个二进制属性。它只包含两个值之一，在这种情况下为 0 或 1。在原始 UCI 数据集中，**y** 属性为 Yes 或 No。我们已经为您编辑了原始数据集。属性 **y** 的所有表示 yes 的值现在是 1，所有表示 no 的值现在是 0。如果使用自己的数据，您可以为二进制属性使用其他值。有关有效值的更多信息，请参阅[使用字 AttributeType 段](creating-a-data-schema-for-amazon-ml.md#assigning-data-types)。

 以下示例显示我们将属性 **y** 中的值更改为二进制属性 0 和 1 前后的数据。

![CSV 文件显示了 euribor3m 和 nr_employed 列，其中 y 值从转换为。 yes/no 1/0](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image2.png)


![数据转换显示 banking.csv 文件，其中显示了 euribor3m、nr_employed 和 y 列。](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image3.png)


 `banking-batch.csv` 文件不包含 **y** 属性。在创建了 ML 模型之后，您将使用该模型来预测该文件中各个记录的 **y**。

 接下来，上传 `banking.csv ` 和 `banking-batch.csv` 文件到 Amazon S3。

**将文件上传到 Amazon S3 位置**

1. 登录 AWS 管理控制台 并打开 Amazon S3 控制台，网址为[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)。

1.  在**所有存储桶**列表中，创建存储桶或者选择您希望将文件上传到的位置。

1. 在导航栏中，选择**上传**。

1. 选择 **Add Files**。

1.  在对话框中，导航到桌面，选择 `banking.csv` 和 `banking-batch.csv`，然后选择**打开**。

 现在您已准备就绪，可[创建训练数据源](step-2-create-a-datasource.md)。