

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 入门先决条件
<a name="gs-prerequisites"></a>

以下步骤是入门练习的先决条件。

1.  设置权限，让 Amazon Personalize 可以代表您访问您的资源。这包括为 Amazon Personalize 创建服务角色，并通过 IAM 策略向其授予访问 Amazon Personalize 资源的权限。有关更多信息，请参阅 [向 Amazon Personalize 授予访问资源的权限](set-up-required-permissions.md)。

1. 准备您的训练数据并将该数据上传到 Amazon S3 存储桶：
   +  有关域数据集组教程，请参阅[创建训练数据（域数据集组）](#gs-data-prep-domain)。
   +  有关自定义数据集组教程，请参阅[创建训练数据（自定义数据集组）](#gs-upload-to-bucket)。

1.  向您的 Amazon Personalize 服务角色授予访问 Amazon S3 资源的权限，如[向 Amazon Personalize 授予访问 Amazon S3 资源的权限](granting-personalize-s3-access.md)中所述。

## 创建训练数据（域数据集组）
<a name="gs-data-prep-domain"></a>

要创建训练数据，请下载、修改电影评级数据，并将此数据保存到 Amazon Simple Storage Service (Amazon S3) 存储桶。然后，向 Amazon Personalize 提供从存储桶进行读取的权限。

**创建训练数据**

1. 下载并解压缩来自 [MovieLens](https://grouplens.org/datasets/movielens) *针对教育和发展推荐* 部分下的 [ml-latest-small.zip](http://files.grouplens.org/datasets/movielens/ml-latest-small.zip) 电影评级 zip 文件（作者：F. Maxwell Harper 和 Joseph A. Konstan，2015 年。The MovieLens Datasets: History and Context。ACM Transactions on Interactive Intelligent Systems (TiiS) 第 5 卷第 4 期：19:1–19:19。https://doi.org/10.1145/2827872）。

1. 打开 `ratings.csv`文件。此文件包含本教程的交互数据。

   1. 删除*评级* 列。

   1. 将 `userId` 和 `movieId` 列分别重命名为 `USER_ID` 和 `ITEM_ID`。

   1. 添加一个 EVENT\$1TYPE 列，并将每条记录的值设置为 `watch`。如果使用的是 Microsoft Excel，则您可以为每条记录设置 EVENT\$1TYPE，方法是：在列的第一个单元格输入 `watch`，然后双击该单元格的右下角。您的标题应如下所示：

      **USER\$1ID,ITEM\$1ID,TIMESTAMP,EVENT\$1TYPE**

      这些列必须与所示内容完全相同，Amazon Personalize 才能识别数据。数据的前几行应如下所示：

      ```
      USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE
      1,1,964982703,watch
      1,3,964981247,watch
      1,6,964982224,watch
      1,47,964983815,watch
      1,50,964982931,watch
      ....
      ....
      ```

   保存 `ratings.csv` 文件。

1. 将 `ratings.csv` 上传到 Amazon S3 存储桶。有关更多信息，请参阅《Amazon Simple Storage Service 用户指南》中的[使用拖放功能上传文件和文件夹](https://docs.aws.amazon.com/AmazonS3/latest/user-guide/upload-objects.html)。

1. 向 Amazon Personalize 提供在存储桶中读取数据的权限。有关更多信息，请参阅 [向 Amazon Personalize 授予访问 Amazon S3 资源的权限](granting-personalize-s3-access.md)。

## 创建训练数据（自定义数据集组）
<a name="gs-upload-to-bucket"></a>

要创建训练数据，请下载、修改电影评级数据，并将此数据保存到 Amazon Simple Storage Service (Amazon S3) 存储桶。然后，向 Amazon Personalize 提供从存储桶进行读取的权限。

1. 下载并解压缩来自 [MovieLens](https://grouplens.org/datasets/movielens) *针对教育和发展推荐* 部分下的 [ml-latest-small.zip](http://files.grouplens.org/datasets/movielens/ml-latest-small.zip) 电影评级 zip 文件（作者：F. Maxwell Harper 和 Joseph A. Konstan，2015 年。The MovieLens Datasets: History and Context。ACM Transactions on Interactive Intelligent Systems (TiiS) 第 5 卷第 4 期：19:1–19:19。https://doi.org/10.1145/2827872）。

1. 打开 `ratings.csv`文件。此文件包含本教程的交互数据。

   1. 删除*评级* 列。

   1. 使用以下内容替换标题行：

      **USER\$1ID,ITEM\$1ID,TIMESTAMP**

      这些标题必须与所示内容完全相同，Amazon Personalize 才能识别数据。

   保存 `ratings.csv` 文件。

1. 将 `ratings.csv` 上传到 Amazon S3 存储桶。有关更多信息，请参阅《Amazon Simple Storage Service 用户指南》中的[使用拖放功能上传文件和文件夹](https://docs.aws.amazon.com/AmazonS3/latest/user-guide/upload-objects.html)。

1. 向 Amazon Personalize 提供在存储桶中读取数据的权限。有关更多信息，请参阅 [向 Amazon Personalize 授予访问 Amazon S3 资源的权限](granting-personalize-s3-access.md)。