View a markdown version of this page

使用规则集创建剖析作业 - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用规则集创建剖析作业

如前所述创建规则集后,会将您引导至数据质量规则页面,其中显示您账户中的所有规则集。

创建包含规则集的剖析作业
  1. 选择先前创建的规则集的名称以查看其详细信息。

  2. 选择使用规则集创建剖析任务

    作业名称会自动填充,但您可以根据需要进行更改。

  3. 对于作业运行样本,您可以选择运行整个数据集或有限数量的行。

    如果您选择运行的样本大小有限,请注意,对于某些规则,结果与完整数据集相比可能会有所不同。

  4. 作业输出设置中,为作业输出选择 S3 位置。在指定的 Amazon S3 存储桶中选择您有权访问的任何文件夹。如果您为此存储桶输入的文件夹名称不存在,则会创建此文件夹。

    成功完成剖析作业后,此文件夹将包含 JSON 格式的数据和数据质量规则验证报告的配置文件。

  5. 数据质量规则下,请注意您的规则集列在数据质量规则集名称下。

  6. 在 “权限” 下,选择或创建角色以授予 DataBrew 从输入 Amazon S3 位置读取和写入任务输出位置的权限。如果您还没有角色,请选择创建新的 IAM 角色

  7. 如有必要,请按创建和使用 AWS Glue DataBrew 个人资料职位中所述修改任何其他可选设置。

  8. 选择创建并运行作业