View a markdown version of this page

了解 Amazon ML 的数据格式 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

了解 Amazon ML 的数据格式

输入数据是您用于创建数据源的数据。您必须使用逗号分隔值 (.csv) 的格式保存输入数据。.csv 文件中的每一行是一个数据记录或观察。.csv 文件中的每一列包含观察的一个属性。例如,下图显示了一个 .csv 文件的内容,其中有四个观察,每个观察位于自己的行中。每个观察包含八个属性,以逗号分隔。这些属性表示观察结果所代表的每个人的以下信息:CustomerID、jobid、教育、住房、贷款、活动、持续时间、活动。willRespondTo

属性

Amazon ML 需要每个属性的名称。您可以通过以下方法指定属性名称:

  • 在您用作输入数据的 .csv 文件的第一行(也称为标头行)中包括属性名称

  • 在与输入数据处于相同 S3 存储桶的单独架构文件中包含属性名称

有关使用架构文件的更多信息,请参阅创建数据架构

以下 .csv 文件示例在标头行中包括属性的名称。

customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign 1,3,basic.4y,no,no,1,261,0 2,1,high.school,no,no,22,149,0 3,1,high.school,yes,no,65,226,1 4,2,basic.6y,no,no,1,151,0

输入文件格式要求

包含输入数据的 .csv 文件必须满足以下要求:

  • 必须为使用 ASCII、Unicode 或 EBCDIC 等字符集的纯文本。

  • 由观察组成,每行一个观察。

  • 对于每个观察,属性值必须以逗号分隔。

  • 如果属性值包含逗号(分隔符),整个属性值必须以双引号括起。

  • 每个观测值必须以一个 end-of-line字符结尾,该字符是一个特殊字符或字符序列,表示行尾。

  • 即使属性值用双引号括起来,属性值也不能包含 end-of-line字符。

  • 每个观察必须具有相同数量的属性和属性序列。

  • 每个观察必须小于等于 100KB。在处理期间,Amazon ML 拒绝任何大于 100KB 的观察。如果 Amazon ML 拒绝的观察超过了 1 万个,它会拒绝整个 .csv 文件。

使用多个文件作为亚马逊机器学习的数据输入

您可以将输入以单个文件或文件集合的形式提供给 Amazon ML 学习。集合必须满足这些条件:

  • 所有文件必须具有相同数据架构。

  • 所有文件必须驻留在同一 Amazon Simple Storage Service (Amazon S3) 前缀中,并且您为集合提供的路径必须以正斜杠(“/”)字符结尾。

例如,如果您的数据文件名为 input1.csv、input2.csv 和 input3.csv,并且 S3 存储桶名称为 s3://examplebucket,则文件路径类似于下文:

s3://examplebucket/path/to/data/input1.csv

s3://examplebucket/path/to/data/input2.csv

s3://examplebucket/path/to/data/input3.csv

您可以提供以下 S3 位置作为 Amazon ML 的输入:

's3: ///' examplebucket/path/to/data

End-of-Line CSV 格式的字符

创建.csv 文件时,每个观测值都将以一个特殊 end-of-line字符结尾。此字符不可见,但在您按 EnterReturn 键时自动包括在每个观察的结尾。表示的特殊字符因操作系统 end-of-line而异。Unix 系统,例如 Linux 或 OS X,使用由“\n”指示的换行符(ASCII 代码十进制 10,十六进制 0x0a)。Microsoft Windows 使用名为回车符换行符,使用“\r\n”指示(ASCII 代码十进制 13 和 10,十六进制 0x0d 和 0x0a)。

如果您希望使用 OS X 和 Microsoft Excel 创建自己的 .csv 文件,请执行以下步骤。确保选择了正确的格式。

使用 OS X 和 Excel 时保存 .csv 文件

  1. 保存 .csv 文件时,选择格式,然后选择 Windows Comma Separated (.csv)

  2. 选择保存

    重要

    请勿使用以逗号分隔值 (.csv)MS-DOS 逗号分隔 (.csv) 格式保存 .csv 文件,因为 Amazon ML 无法读取这些格式。