

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 步骤 1：向 Amazon S3 添加文档
<a name="tutorial-reviews-add-docs"></a>

在开始 Amazon Comprehend 分析任务之前，您需要在 Amazon Simple Storage Service (Amazon S3) 中存储客户评论的示例数据集。Amazon S3 将您的数据托管在名为存储桶的容器中。Amazon Comprehend 可以分析存储在存储桶中的文档，并将分析结果发送到存储桶。在此步骤中，您将创建一个 S3 存储桶，在该存储桶中创建输入和输出文件夹，并将示例数据集上传到该存储桶。

**Topics**
+ [先决条件](#tutorial-reviews-add-docs-prereqs)
+ [下载示例数据](#tutorial-reviews-add-docs-download)
+ [创建 Amazon S3 存储桶](#tutorial-reviews-add-docs-bucket)
+ [（仅限控制台）创建文件夹](#tutorial-reviews-add-docs-folders)
+ [上传输入数据](#tutorial-reviews-add-docs-upload)

## 先决条件
<a name="tutorial-reviews-add-docs-prereqs"></a>

在开始之前，请查看 [教程：使用 Amazon Comprehend 分析来自客户评论的见解](tutorial-reviews.md) 并完成先决条件。

## 下载示例数据
<a name="tutorial-reviews-add-docs-download"></a>

以下示例数据集包含取自较大数据集 “Amazon reviews-Full” 的亚马逊评论，该数据集与文章《用于文本分类的Character-level卷积网络》（Xiang Zhang 等人，2015 年）一起发表。将数据集下载到您的计算机中。

**获取示例数据**

1. 将 zip 文件 [tutorial-reviews-data.zip](samples/tutorial-reviews-data.zip) 下载到您的计算机上。

1. 将 zip 文件提取到您的计算机上。有两个文件。文件 `THIRD_PARTY_LICENSES.txt` 是 Xiang Zhang 等人发布的数据集的开源许可证。文件 `amazon-reviews.csv` 是您在教程中分析的数据集。

## 创建 Amazon S3 存储桶
<a name="tutorial-reviews-add-docs-bucket"></a>

下载示例数据集后，创建一个 Amazon S3 存储桶以存储您的输入和输出数据。您可以使用 Amazon S3 控制台或 AWS Command Line Interface (AWS CLI) 创建 S3 存储桶。

### 创建 Amazon S3 存储桶（控制台）
<a name="tutorial-reviews-add-docs-bucket-console"></a>

在 Amazon S3 控制台中，您可以创建一个存储桶，其名称在所有 AWS中都是唯一的。

**创建 S3 存储桶（控制台）**

1. 登录 AWS 管理控制台 并打开 Amazon S3 控制台，网址为[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)。

1. 在**存储桶**中，选择**创建存储桶**。

1. 对于**存储桶名称**，请输入全局唯一名称，以描述存储桶用途。

1. 对于**区域**，选择要在其中创建存储桶的 AWS 区域。您选择的区域必须支持 Amazon Comprehend。要减少延迟，请选择 Amazon Comprehend 支持的离您的地理位置最近的 AWS 区域。有关支持 Amazon Comprehend 的区域列表，请参阅《*全球基础设施指南*》中的[区域表](https://aws.amazon.com/about-aws/global-infrastructure/regional-product-services/)。

1. 保留**对象所有权**、**阻止公共访问的存储桶设置**、**存储桶版本控制**和**标签**的默认设置。

1. 对于**默认加密**，请选择**禁用**。
**提示**  
虽然本教程不使用加密，但您可能需要在分析重要数据时使用加密。对于端到端加密，您可以加密存储桶中的静态数据，也可以在运行分析任务时对数据进行加密。有关使用加密的更多信息 AWS，请参阅[什么是 AWS Key Management Service？](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html) 在《*AWS Key Management Service 开发人员指南》*中。

1. 查看您的存储桶配置，然后选择**创建存储桶**。

### 创建 Amazon S3 存储桶 (AWS CLI)
<a name="tutorial-reviews-add-docs-bucket-cli"></a>

打开后 AWS CLI，您可以运行`create-bucket`命令来创建用于存储输入和输出数据的存储桶。

**创建 Amazon S3 存储桶 (AWS CLI)**

1. 请在 AWS CLI中运行以下命令来创建存储桶。将 amzn-s3-demo-bucket 替换为所有存储桶中唯一的名称。 AWS

   ```
   aws s3api create-bucket --bucket amzn-s3-demo-bucket
   ```

   默认情况下，该`create-bucket`命令在`us-east-1` AWS 区域中创建存储桶。要在以 `us-east-1` 外的 AWS 区域 中创建存储桶，请添加 `LocationConstraint` 参数以指定您的区域。例如，以下命令在 `us-west-2` 区域中创建一个存储桶。

   ```
   aws s3api create-bucket --bucket amzn-s3-demo-bucket
   --region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2
   ```

   请注意，只有某些区域支持 Amazon Comprehend。有关支持 Amazon Comprehend 的区域列表，请参阅《*全球基础设施指南*》中的[区域表](https://aws.amazon.com/about-aws/global-infrastructure/regional-product-services/)。

1. 要确保成功创建存储桶，请运行以下命令。该命令列出与您的账户关联的所有 S3 存储桶。

   ```
   aws s3 ls
   ```

## （仅限控制台）创建文件夹
<a name="tutorial-reviews-add-docs-folders"></a>

接下来，在您的 S3 存储桶中创建两个文件夹。第一个文件夹用于存储输入数据。第二个文件夹是 Amazon Comprehend 发送分析结果的地方。如果您使用 Amazon S3 控制台，则必须手动创建文件夹。如果您使用 AWS CLI，则可以在上传示例数据集或运行分析作业时创建文件夹。因此，我们提供了仅为控制台用户创建文件夹的程序。如果您使用的是 AWS CLI，则将在 [上传输入数据](#tutorial-reviews-add-docs-upload) 中和 [步骤 3：在 Amazon S3 中对文档运行分析任务](tutorial-reviews-analysis.md) 中创建文件夹。

**在 S3 存储桶中创建文件夹（控制台）**

1. 打开 Amazon S3 控制台，网址为 [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)。

1. 在**存储桶**中，从存储桶列表中选择您的存储桶。

1. 在**概述**选项卡中，选择**创建文件夹**。

1. 对于新文件夹名称，输入 `input`。

1. 对于加密设置，请选择**无（使用存储桶设置）**。

1. 选择**保存**。

1. 重复步骤 3 到 6，为分析任务的输出创建另一个文件夹，但在步骤 4 中，输入新的文件夹名称 `output`。

## 上传输入数据
<a name="tutorial-reviews-add-docs-upload"></a>

现在您已经有了存储桶，请上传示例数据集 `amazon-reviews.csv`。您可以使用 Amazon S3 控制台或 AWS CLI将数据上传到 S3 存储桶。

### 将示例文档上传到存储桶（控制台）
<a name="tutorial-reviews-add-docs-upload-console"></a>

在 Amazon S3 控制台中，将示例数据集文件上传到输入文件夹。

**上传示例文档（控制台）**

1. 打开 Amazon S3 控制台，网址为 [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)。

1. 在**存储桶**中，从存储桶列表中选择您的存储桶。

1. 选择 `input` 文件夹，然后选择**上传**。

1. 选择**添加文件**，然后在计算机上选择 `amazon-reviews.csv` 文件。

1. 将其他设置保留为默认值。

1. 选择**上传**。

### 将示例文档上传到存储桶 (AWS CLI)
<a name="tutorial-reviews-add-docs-upload-cli"></a>

在 S3 存储桶中创建输入文件夹，然后使用 `cp` 命令将数据集文件上传到新文件夹。

**上传示例文档 (AWS CLI)**

1. 要将`amazon-reviews.csv`文件上传到存储桶中的新文件夹，请运行以下 AWS CLI 命令。将 amzn-s3-demo-bucket 替换为您的 存储桶的名称。通过在末尾添加路径 `/input/`，Amazon S3 会自动在您的存储桶中创建一个名为 `input` 的新文件夹，并将数据集文件上传到该文件夹。

   ```
   aws s3 cp amazon-reviews.csv s3://amzn-s3-demo-bucket/input/
   ```

1. 要确保成功上传文件，请运行以下命令。该命令列出了您的存储桶 `input` 文件夹的内容。

   ```
   aws s3 ls s3://amzn-s3-demo-bucket/input/
   ```

现在，您有一个 S3 存储桶，其中 `amazon-reviews.csv` 文件位于名为 `input` 的文件夹中。如果您使用控制台，则存储桶中还有一个 `output` 文件夹。如果您使用了 AWS CLI，则将在运行 Amazon Comprehend 分析任务时创建输出文件夹。