Amazon DataZone 中的数据质量
Amazon DataZone 中的数据质量指标可帮助您了解数据来源的各种质量指标,例如完整性、及时性和准确性。Amazon DataZone 与 AWS Glue 数据质量自动监测功能集成,并提供 API 以集成来自第三方数据质量解决方案的数据质量指标。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。要创作和运行数据质量规则,您可以使用自己选择的数据质量工具,例如 AWS Glue 数据质量自动监测功能。借助 Amazon DataZone 中的数据质量指标,数据使用者可以可视化资产和列的数据质量分数,并帮助建立对他们用于决策的数据的信任。
先决条件和 IAM 角色更改
如果您使用的是 Amazon DataZone 的 AWS 托管式策略,则无需执行其他配置步骤,并且这些托管式策略会自动更新以支持数据质量。如果您对角色使用自己的策略来向 Amazon DataZone 授予所需的权限以便与支持的服务互操作,则必须更新附加到这些角色的策略,以启用对读取 AWS 托管式策略:AmazonDataZoneGlueManageAccessRolePolicy 中的 AWS Glue 数据质量自动监测功能信息的支持,以及对 AWS 托管式策略:AmazonDataZoneDomainExecutionRolePolicy 和 AWS 托管式策略:AmazonDataZoneFullUserAccess 中的时间序列 API 的支持。
为 AWS Glue 资产启用数据质量
Amazon DataZone 从 AWS Glue 中提取数据质量指标,以便在某个时间点(例如,在企业数据目录搜索期间)提供上下文。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。数据创建者可以按计划摄取 AWS Glue 数据质量分数。Amazon DataZone 企业数据目录还可以通过数据质量 API 显示来自第三方系统的数据质量指标。有关更多信息,请参阅 AWS Glue Data Quality 和 Getting started with AWS Glue Data Quality for the Data Catalog。
可通过以下方式为 Amazon DataZone 资产启用数据质量指标:
-
在创建新的或编辑现有的 AWS Glue 数据来源时,使用数据门户或 Amazon DataZone API 通过 Amazon DataZone 数据门户为 AWS Glue 数据来源启用数据质量。
有关通过门户为数据来源启用数据质量的更多信息,请参阅为 AWS Glue Data Catalog 创建并运行 Amazon DataZone 数据来源。
注意
可以使用数据门户仅为 AWS Glue 库存资产启用数据质量。在此版本的 Amazon DataZone 中,不支持通过数据门户为 Amazon Redshift 或自定义类型资产启用数据质量。
还可以使用 API 为新的或现有的数据来源启用数据质量。可以通过调用 CreateDataSource 或 UpdateDataSource 并将
autoImportDataQualityResult参数设置为“True”来做到这一点。启用数据质量后,您可以按需或按时间表运行数据来源。每次运行最多可以为每个资产引入 100 个指标。在将数据来源用于数据质量时,无需手动创建表单或添加指标。在发布资产后,对数据质量表单所做的更新(每条历史记录规则最多 30 个数据点)将反映在面向使用者的清单中。随后,向资产添加的每一个新指标都会自动添加到清单中。无需重新发布资产即可向使用者提供最新的分数。
为自定义资产类型启用数据质量
可以使用 Amazon DataZone API 为您的任何自定义类型资产启用数据质量。有关更多信息,请参阅下列内容:
以下步骤演示了如何使用 API 或 CLI 在 Amazon DataZone 中为资产导入第三方指标:
-
按如下方式调用
PostTimeSeriesDataPointsAPI:aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \具有以下有效载荷:
"domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }您可以通过调用以下
GetFormType操作来获取此有效载荷:aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy' -
按如下方式调用
DeleteTimeSeriesDataPointsAPI:aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \