

我们不再更新 Amazon Machine Learning 服务，也不再接受新用户使用该服务。本文档可供现有用户使用，但我们不会再对其进行更新。有关更多信息，请参阅[什么是 Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html)。

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 了解 Amazon ML 的数据格式
<a name="understanding-the-data-format-for-amazon-ml"></a>

 输入数据是您用于创建数据源的数据。您必须使用逗号分隔值 (.csv) 的格式保存输入数据。.csv 文件中的每一行是一个数据记录或观察。.csv 文件中的每一列包含观察的一个属性。例如，下图显示了一个 .csv 文件的内容，其中有四个观察，每个观察位于自己的行中。每个观察包含八个属性，以逗号分隔。这些属性表示观察结果所代表的每个人的以下信息：CustomerID、jobid、教育、住房、贷款、活动、持续时间、活动。willRespondTo

 ![\[Diagram showing Attributes and Observations sections with sample data entries.\]](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image39.png) 

## 属性
<a name="attributes"></a>

 Amazon ML 需要每个属性的名称。您可以通过以下方法指定属性名称：
+  在您用作输入数据的 .csv 文件的第一行（也称为标头行）中包括属性名称 
+  在与输入数据处于相同 S3 存储桶的单独架构文件中包含属性名称 

 有关使用架构文件的更多信息，请参阅[创建数据架构](https://docs.aws.amazon.com/machine-learning/latest/dg/creating-a-data-schema-for-amazon-ml.html)。

 以下 .csv 文件示例在标头行中包括属性的名称。

```
customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign

1,3,basic.4y,no,no,1,261,0

2,1,high.school,no,no,22,149,0

3,1,high.school,yes,no,65,226,1

4,2,basic.6y,no,no,1,151,0
```

## 输入文件格式要求
<a name="csv-format-requirements"></a>

 包含输入数据的 .csv 文件必须满足以下要求：
+  必须为使用 ASCII、Unicode 或 EBCDIC 等字符集的纯文本。
+  由观察组成，每行一个观察。
+  对于每个观察，属性值必须以逗号分隔。
+  如果属性值包含逗号（分隔符），整个属性值必须以双引号括起。
+  每个观测值必须以一个 end-of-line字符结尾，该字符是一个特殊字符或字符序列，表示行尾。
+  即使属性值用双引号括起来，属性值也不能包含 end-of-line字符。
+  每个观察必须具有相同数量的属性和属性序列。
+  每个观察必须小于等于 100KB。在处理期间，Amazon ML 拒绝任何大于 100KB 的观察。如果 Amazon ML 拒绝的观察超过了 1 万个，它会拒绝整个 .csv 文件。

## 使用多个文件作为亚马逊机器学习的数据输入
<a name="using-multiple-files-as-data-input-to-amazon-ml"></a>

 您可以将输入以单个文件或文件集合的形式提供给 Amazon ML 学习。集合必须满足这些条件：
+  所有文件必须具有相同数据架构。
+  所有文件必须驻留在同一 Amazon Simple Storage Service (Amazon S3) 前缀中，并且您为集合提供的路径必须以正斜杠（“/”）字符结尾。

 例如，如果您的数据文件名为 input1.csv、input2.csv 和 input3.csv，并且 S3 存储桶名称为 s3://examplebucket，则文件路径类似于下文：

 s3://examplebucket/path/to/data/input1.csv 

 s3://examplebucket/path/to/data/input2.csv 

 s3://examplebucket/path/to/data/input3.csv 

您可以提供以下 S3 位置作为 Amazon ML 的输入：

 's3: ///' examplebucket/path/to/data 

## End-of-Line CSV 格式的字符
<a name="end-of-line-characters-in-csv-format"></a>

 创建.csv 文件时，每个观测值都将以一个特殊 end-of-line字符结尾。此字符不可见，但在您按 **Enter** 或 **Return** 键时自动包括在每个观察的结尾。表示的特殊字符因操作系统 end-of-line而异。Unix 系统，例如 Linux 或 OS X，使用由“\$1n”指示的*换行符*（ASCII 代码十进制 10，十六进制 0x0a）。Microsoft Windows 使用名为*回车符*和*换行符*，使用“\$1r\$1n”指示（ASCII 代码十进制 13 和 10，十六进制 0x0d 和 0x0a）。

 如果您希望使用 OS X 和 Microsoft Excel 创建自己的 .csv 文件，请执行以下步骤。确保选择了正确的格式。

 **使用 OS X 和 Excel 时保存 .csv 文件** 

1.  保存 .csv 文件时，选择**格式**，然后选择 **Windows Comma Separated (.csv)**。

1.  选择**保存**。

    ![\[Excel file save dialog showing various file format options, including CSV and specialty formats.\]](http://docs.aws.amazon.com/zh_cn/machine-learning/latest/dg/images/image40b.png) 
**重要**  
 请勿使用以**逗号分隔值 (.csv)** 或 **MS-DOS 逗号分隔 (.csv)** 格式保存 .csv 文件，因为 Amazon ML 无法读取这些格式。