

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建和使用 AWS Glue DataBrew 项目
<a name="projects"></a>

在中 AWS Glue DataBrew，*项目*是数据分析和转换工作的核心。

创建项目时，您可以将两个基本组件组合在一起：
+ 数据集，用于提供对源数据的只读访问权限。有关更多信息，请参阅 [使用连接数据 AWS Glue DataBrew](datasets.md)。
+ 一种方法，用于将 DataBrew 数据转换应用于数据集。有关更多信息，请参阅 [创建和使用 AWS Glue DataBrew 配方](recipes.md)。

 DataBrew 控制台以高度交互的直观用户界面呈现您的项目。它鼓励您尝试数百种数据转换，这样便可以了解它们的工作方式，以及它们对您的数据会产生什么影响。

您在项目视图中看到的数据是您的数据集样本。由于数据集可能非常大，有数千甚至数百万行，因此使用样本有助于确保 DataBrew 控制台在以各种方式转换样本数据时保持响应能力。默认情况下，样本包含数据集中的前 500 行数据。您可以为样本大小选择不同的设置，以及选择哪些行。

在转换示例数据时， DataBrew 可以帮助您构建和完善项目配方，这是您迄今为止应用 step-by-step的一系列转换。您的 work-in-progress食谱会自动保存，因此您可以随时离开项目视图，稍后返回，然后从上次停下来的地方继续前进。

当配方准备好可供使用时，便可以发布它。发布配方使其可供 DataBrew 作业子系统使用，在那里你可以将配方应用于整个数据集，或者创建广泛的数据配置文件，让你了解数据的结构、内容和统计特征。

**Topics**
+ [创建项目](#projects.creating)
+ [DataBrew 项目会议概述](projects.overview.md)
+ [删除项目](projects.deleting.md)

## 创建项目
<a name="projects.creating"></a>

使用以下过程创建项目。

**创建项目**

1. 登录 AWS 管理控制台 并打开 DataBrew 控制台。

1. 在导航窗格上，选择**项目**。然后，选择**创建项目**。

1. 输入项目的名称。然后，选择要附加到项目的配方：
   + 如果您是从头开始，请选择**创建新配方**。这样做会创建一个新的空配方并将其附加到您的项目。
   + 如果您之前发布过配方要用于此项目，请选择**编辑现有配方**。如果该配方当前已附加到另一个项目，或者已为其定义任何作业，则无法在新项目中使用它。选择**浏览配方**查看哪些配方可用。
   + 如果您有之前发布过的现有配方并想导入其步骤，请选择**从配方导入步骤**，然后执行以下操作：

     1. 选择**浏览配方**查看哪些配方可用。

     1. 选择要使用的已发布配方版本。一个配方可以有多个版本，具体取决于您在项目视图中工作时发布它的频率。

     1. 选择**查看配方步骤**以检查配方中的数据转换。

1. 拥有配方后，在**选择数据集**窗格中选择要使用的数据集：
   + **我的数据集**：选择您之前创建的数据集。有关更多信息，请参阅[创建项目](#projects.creating)。
   + **示例文件**-根据由维护的示例数据创建新的数据集 AWS。此示例数据是探索 DataBrew 可以做什么的好方法，而无需提供自己的数据。确保输入数据集的名称。
   + **新数据集**：创建新数据集。有关更多信息，请参阅 [创建项目](#projects.creating)。

1. 要获得**访问权限**，请选择允许从您的 Amazon S3 输入位置 DataBrew 进行读取的 AWS Identity and Access Management (IAM) 角色。对于您的 AWS 账户拥有的 S3 地点，您可以选择`AwsGlueDataBrewDataAccessRole`服务托管角色。这样做可以 DataBrew 访问您拥有的 S3 资源。

1. 在**采样**窗格上，您可以找到 DataBrew 用于从您的数据集构建数据样本的选项。

   在 “**类型**” 中，选择 DataBrew 应如何从数据集中获取行：
   + 使用**前 n 行**根据数据集中的前几行创建样本。
   + 使用**随机行**根据数据集中随机选择的行创建样本。
   + 选择要在样本中显示的行数：500、1000、2500 或自定义样本大小，最多 5000 行。较小的样本量可以 DataBrew 更快地执行转换，从而节省开发配方的时间。样本大小越大，越能准确地反映底层源数据的构成。但是，项目会话初始化和交互式转换速度会较慢。

1. （可选）选择**标签**将标签附加到您的数据集。

   *标签*是由用户定义的密钥和可选值组成的简单标签，可以更轻松地按目的、所有者、环境或其他条件管理、搜索和筛选 DataBrew 项目。

1. 根据需要进行设置后，选择**创建作业**。

DataBrew 根据需要创建新数据集，根据需要创建新配方，构建数据样本，并创建交互式项目会话。此过程可能需要数分钟完成。项目准备就绪后，您便可以开始使用数据样本了。