我们不再更新 Amazon Machine Learning 服务，也不再接受新用户使用该服务。本文档可供现有用户使用，但我们不会再对其进行更新。有关更多信息，请参阅[什么是 Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html)。

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon Machine Learning 关键概念
<a name="amazon-machine-learning-key-concepts"></a>

 本部分总结了以下关键概念并详细介绍了如何在 Amazon ML 中使用这些概念：
+  [数据源](#datasources)包含与 Amazon ML 输入数据相关的元数据 
+  [ML 模型](#ml-models)使用从输入数据中提取的模式生成预测 
+  [评估](#evaluations)衡量 ML 模型的质量 
+  [批量预测](#batch-predictions)可*异步* 为多个输入数据观察生成预测 
+  [实时预测](#real-time-predictions)可*同步* 为单个数据观察生成预测 

## 数据源
<a name="datasources"></a>

 数据源是包含有关输入数据的元数据的对象。Amazon ML 读取您的输入数据、计算其属性的描述性统计数据，并将统计数据与架构和其他信息一起存储为数据源对象的一部分。接下来，Amazon ML 使用数据源训练和评估 ML 模型并生成批量预测。

**重要**  
 数据源不存储输入数据的副本。而是存储输入数据所在的 Amazon S3 位置的引用。如果您移动或更改 Amazon S3 文件，Amazon ML 无法访问或使用该文件来创建 ML 模型、生成评估或生成预测。

 下表定义了与数据源相关的术语。


|  **期限**  |  **定义**  | 
| --- | --- | 
|  属性  |  观察中唯一的指定属性。在采用表格格式的数据（例如，电子表格或逗号分隔的值 (CSV) 文件）中，列标题代表属性，而行包含每个属性的值。<br /> 同义词：变量、变量名称、字段、列  | 
|  数据源名称  |  （可选）允许您为数据源定义一个便于阅读的名称。这些名称便于您在 Amazon ML 控制台中查找和管理您的数据源。 | 
|  输入数据  |  数据源引用的所有观察的总称。 | 
|  位置  |  输入数据的位置。目前，Amazon ML 可以使用存储在 Amazon S3 存储桶、Amazon Redshift 数据库或 Amazon Relational Database Service (RDS) 中的 MySQL 数据库中的数据。 | 
|  观察  |  单个输入数据单位。例如，如果您创建的是检测欺诈交易的 ML 模型，您的输入数据将包含许多观察，每个观察表示单个交易。<br /> 同义词：记录、示例、实例、行  | 
|  行 ID  |  （可选）此标记（如果指定）用于标识输入数据的将包含在预测输出中的属性。借助此属性，您可以更轻松地将预测与对应的观察进行关联。<br /> 同义词：行标识符  | 
|  架构  |  解释输入数据时所需的信息，包括属性名及其分配的数据类型和特殊属性名。 | 
|  统计信息  |  输入数据中每个属性的摘要统计信息。这些统计数据有两种用途：<br /> Amazon ML 控制台以图表形式显示它们，以帮助您了解数据 at-a-glance并识别异常或错误。<br /> Amazon ML 在训练过程中使用它们来改进生成的 ML 模型的质量。 | 
|  状态  |  指示数据源的当前状态，例如正在进行、已完成或失败。 | 
|  目标属性  |  在训练 ML 模型的上下文中，目标属性会标识包含“正确”答案的输入数据中属性的名称。Amazon ML 使用此属性在输入数据中发现模式并生成 ML 模型。在评估和生成预测的上下文中，目标属性是值将由经过训练的 ML 模型进行预测的属性。<br /> 同义词：目标  | 

## ML 模型
<a name="ml-models"></a>

 ML 模型是通过在数据中查找模式来生成预测的数学模型。Amazon ML 支持三种类型的 ML 模型：二进制分类、多类别分类和回归。

 下表定义了与 ML 模型相关的术语。


|  **期限**  |  **定义**  | 
| --- | --- | 
|  回归  |  训练回归 ML 模型的目标是预测数字值。 | 
|  多类别  |  训练多类别 ML 模型的目标是预测属于有限的、预定义的允许值集的值。 | 
|  二元  |  训练二进制 ML 模型的目标是预测只能有两种状态之一的值，例如 true 或 false。 | 
|  模型大小  |  ML 模型可以捕获和存储模式。ML 模型存储的模式越多，就会变得越大。ML 模型的大小以 MB 为单位。 | 
|  扫描次数  |  训练 ML 模型时，您可以使用数据源中的数据。在学习过程中多次使用每个数据记录有时比一次使用更加有用。您让 Amazon ML 使用相同数据记录的次数称为扫描次数。 | 
|  正则化  |  正则化是一种机器学习方法，可用来获得更高质量的模型。Amazon ML 提供适用于大多数情况的默认设置。 | 

## 评估
<a name="evaluations"></a>

 评估可衡量您的 ML 模型的质量，并确定它是否表现良好。

 下表定义了与评估相关的术语。


|  **期限**  |  **定义**  | 
| --- | --- | 
|  模型洞察  |  Amazon ML 会为您提供一个指标和许多洞察，您可以用这些来评估模型的预测性能。 | 
|  AUC  |  ROC 曲线下面积 (AUC) 测量二进制 ML 模型为正面示例预测比负面示例更高分数的能力。 | 
|  宏平均 F1 分数  |  宏平均 F1 分数用于评估多类别 ML 模型的预测性能。 | 
|  RMSE  |  均方根误差 (RMSE) 是用于评估回归 ML 模型的预测性能的指标。 | 
|  截断  |  ML 模型通过生成数字预测分数来工作。通过应用截断值，系统可将这些分数转换为 0 和 1 标签。 | 
|  准确度  |  准确度可测量正确预测的百分比。 | 
|  精度  |  精度显示在已检索的实例（预测为阳性）中，实际阳性实例（相对于假阳性）的百分比。换言之，所选项目有多少是阳性？  | 
|  召回率  |  召回率显示了在相关实例总数中实际阳性的百分比（实际阳性）。换言之，阳性项目有多少已选定？  | 

## 批量预测
<a name="batch-predictions"></a>

 批量预测功能可以一次性运行一组观察。这非常适合于没有实时要求的预测分析。

 下表定义了与批量预测相关的术语。


|  **期限**  |  **定义**  | 
| --- | --- | 
|  输出位置  |  批量预测结果存储在 S3 存储桶输出位置。 | 
|  清单文件  |  此文件将每个输入数据文件与其关联的批量预测结果相关联。它存储在 S3 存储桶输出位置。 | 

## 实时预测
<a name="real-time-predictions"></a>

 实时预测适用于具有低延迟要求的应用程序，例如交互式 Web、移动或桌面应用程序。任何 ML 模型都可通过低延迟实时预测 API 查询预测。

 下表定义了与实时预测相关的术语。


|  **期限**  |  **定义**  | 
| --- | --- | 
|  实时预测 API  |  实时预测 API 接受请求负载中的单个输入观察并在响应中返回预测。 | 
|  实时预测终端节点  |  要将使用 ML 模型与实时预测 API 配合使用，您需要创建实时预测终端节点。创建后，此终端节点包含可用来请求实时预测的 URL。 |