步骤 6:转换数据集
到目前为止,您仅在数据集的样本上测试了您的配置。现在是时候通过创建 DataBrew 配方作业来转换整个数据集了。
当作业运行时,DataBrew 会将您的配方应用于数据集中的所有数据,并将转换后的数据写入 Amazon S3 存储桶。转换后的数据与原始数据集分离。DataBrew 不会更改源数据。
在您继续之前,请确保您的账户中有 Amazon S3 存储桶可供您写入。在该存储桶中,请创建一个文件夹来捕获 DataBrew 的作业输出。要执行这些步骤,请使用以下过程。
创建 S3 存储桶和文件夹以捕获作业输出
-
登录到 AWS 管理控制台,然后通过以下网址打开 Amazon S3 控制台:https://console.aws.amazon.com/databrew/
。 如果您已有一个 Amazon S3 存储桶可用,并且您具有写入权限,请跳到下一个步骤。
-
如果没有 Amazon S3 存储桶,请选择创建存储桶。对于存储桶名称,请为新存储桶输入一个唯一名称。选择创建存储桶 。
-
从存储桶列表中,选择您想要使用的存储桶。
-
选择创建文件夹。
-
对于文件夹名称,输入
databrew-output,然后选择创建文件夹。
在创建用于包含作业的 Amazon S3 存储桶和文件夹后,请使用以下过程运行您的作业。
创建并运行配方作业
-
在导航窗格上,选择作业。
-
在配方作业选项卡上,选择创建作业。
-
对于作业名称,输入
chess-winner-summary。 -
对于作业类型,选择创建配方作业。
-
在作业输入窗格上,执行以下操作:
-
对于运行于,选择数据集。
-
选择选择数据集以查看可用数据集列表,然后选择
chess-games。 -
选择选择配方以查看可用配方列表,然后选择
chess-project-recipe。
-
-
在作业输出设置窗格上,执行以下操作:
-
文件类型:选择 CSV(逗号分隔值)。
-
S3 位置:选择此字段可查看可用 Amazon S3 存储桶列表,然后选择要使用的存储桶。然后选择浏览。在文件夹列表中,选择
databrew-output,然后选择选择。
-
-
在访问权限窗格上,选择
AwsGlueDataBrewDataAccessRole。此服务相关角色让 DataBrew 可以代表您访问 Amazon S3 存储桶。 -
选择创建并运行作业。DataBrew 将使用您的设置创建一个作业,然后运行它。
-
在作业运行历史记录窗格上,等待作业状态从
Running更改为Succeeded。 -
选择输出以访问 Amazon S3 控制台。选择您的 S3 存储桶,然后选择用于访问作业输出的
databrew-output文件夹。 -
(可选)选择下载以下载文件并查看其内容。