为 AWS Glue Data Catalog 创建并运行 Amazon DataZone 数据来源 - Amazon DataZone

为 AWS Glue Data Catalog 创建并运行 Amazon DataZone 数据来源

在 Amazon DataZone 中,您可以创建 AWS Glue Data Catalog 数据来源,以便从 AWS Glue 中导入数据库表的技术元数据。要为 AWS Glue Data Catalog 添加数据来源,源数据库必须已在 AWS Glue 中。

在创建并运行 AWS Glue 数据来源时,会将源 AWS Glue 数据库中的资产添加到 Amazon DataZone 项目的库存中。您可以按设定计划或按需运行 AWS Glue 数据来源,以创建或更新资产的技术元数据。在数据来源运行期间,(可选)可以选择将资产发布到 Amazon DataZone 目录,从而使所有域用户都能发现这些资产。也可以在编辑项目库存资产的企业元数据后发布这些资产。域用户可以搜索和发现已发布的资产,并请求订阅这些资产。

添加 AWS Glue 数据来源
  1. 导航到 Amazon DataZone 数据门户 URL,并使用单点登录(SSO)或您的 AWS 凭证进行登录。如果您是 Amazon DataZone 管理员,则可以导航到 Amazon DataZone 控制台(网址为 https://console.aws.amazon.com/datazone),并使用在其中创建域的 AWS 账户进行登录,然后选择打开数据门户

  2. 从顶部导航窗格中选择选择项目,然后选择要将数据来源添加到的项目。

  3. 导航到项目的数据选项卡。

  4. 从左侧导航窗格中选择数据来源,然后选择创建数据来源

  5. 配置以下字段:

    • 名称 – 数据来源名称。

    • 描述 – 数据来源描述。

  6. 数据来源类型下,选择 AWS Glue

  7. 选择环境下,指定要在其中发布 AWS Glue 表的环境。

  8. 数据选择下,提供一个 AWS Glue 数据库并输入您的表格选择标准。例如,如果您选择包括并输入 *corporate,则数据库将包括所有以 corporate 一词结尾的源表。

    您可以从下拉列表中选择一个 AWS Glue 数据库,也可以键入一个数据库名称。下拉列表包括两个数据库:环境的发布数据库和订阅数据库。如果要从并非由环境创建的数据库引入资产,您必须键入数据库的名称,而不是从下拉列表中选择数据库。

    可以为单个数据库中的表添加多个包含和排除规则。也可以使用添加另一个数据库按钮来添加多个数据库。

  9. 数据质量下,可以选择对此数据来源启用数据质量自动监测功能。如果您这样做,Amazon DataZone 会将您现有的 AWS Glue 数据质量输出导入您的 Amazon DataZone 目录中。默认情况下,Amazon DataZone 会从 AWS Glue 中导入现有的 100 个无到期日期的最新质量报告。

    Amazon DataZone 中的数据质量指标可帮助您了解数据来源的完整性和准确性。Amazon DataZone 从 AWS Glue 中提取这些数据质量指标,以便在某个时间点(例如,在企业数据目录搜索期间)提供上下文。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。数据创建者可以按计划摄取 AWS Glue 数据质量分数。Amazon DataZone 企业数据目录还可以通过数据质量 API 显示来自第三方系统的数据质量指标。有关更多信息,请参阅 Amazon DataZone 中的数据质量

  10. 选择下一步

  11. 对于发布设置,选择是否可以在企业数据目录中立即发现资产。如果您仅将资产添加到库存中,则可以稍后选择订阅条款并将资产发布到企业数据目录。

  12. 对于自动生成企业名称,请选择是否在从来源导入资产时自动为其生成元数据。

  13. (可选)对于元数据表单,添加表单以定义在将资产导入 Amazon DataZone 时收集和保存的元数据。有关更多信息,请参阅 在 Amazon DataZone 中创建元数据表单

  14. 运行偏好中,选择何时运行数据来源。

    • 按时间表运行 – 指定数据来源的运行日期和时间。

    • 按需运行 – 可以手动启动数据来源运行。

  15. 选择下一步

  16. 检查您的数据来源配置,然后选择创建

注意

在创建 AWS Glue 数据来源时,Amazon DataZone 会为环境的 IAM 角色创建 Lake Formation“只读”权限,该环境用于创建数据来源以访问数据来源中使用的 AWS Glue 数据库中的所有表。您可在环境的详细信息页面上,在数据来源下监控这些授权的状态。在向发布环境的 IAM 角色授予访问权限时,Amazon DataZone 会向 AWS Glue 数据库添加以下 AWS 标签:DataZoneDiscoverable_${domainId}: true

对于在当前版本的 Amazon DataZone 之前创建的环境,项目成员无法在 Amazon Athena 中查看授权的表。