Calidad de los datos en Amazon DataZone - Amazon DataZone

Calidad de los datos en Amazon DataZone

Las métricas de calidad de los datos de Amazon DataZone le ayudan a comprender las diferentes métricas de calidad de sus orígenes de datos, como la integridad, la puntualidad o la precisión de sus orígenes de datos. Amazon DataZone se integra con Calidad de datos de AWS Glue y ofrece varias API para integrar métricas de calidad de datos desde soluciones de calidad de datos de terceros. Los usuarios de datos pueden ver cómo las métricas de calidad de los datos cambian a lo largo del tiempo para sus activos suscritos. Para crear y ejecutar las reglas de calidad de los datos, puede utilizar la herramienta de calidad de datos que prefiera, como Calidad de datos de AWS Glue. Con las métricas de calidad de los datos de Amazon DataZone, los consumidores de datos pueden visualizar las puntuaciones de calidad de los datos de los activos y las columnas, lo que ayuda a generar confianza en los datos que utilizan para tomar decisiones.

Requisitos previos y cambios en los roles de IAM

Si utiliza las políticas administradas de AWS de Amazon DataZone, no hay pasos de configuración adicionales y estas políticas administradas se actualizan automáticamente para respaldar la calidad de los datos. Si utiliza sus propias políticas para los roles que otorgan a Amazon DataZone los permisos necesarios para interactuar con los servicios compatibles, debe actualizar las políticas asociadas a estos roles para permitir la lectura de la información sobre la calidad de los datos de AWS Glue en el Política administrada de AWS: AmazonDataZoneGlueManageAccessRolePolicy y habilitar el soporte para las API de series temporales en el Política administrada de AWS: AmazonDataZoneDomainExecutionRolePolicy y el Política administrada de AWS: AmazonDataZoneFullUserAccess.

Habilitación de la calidad de los datos para los activos de AWS Glue

Amazon DataZone extrae estas métricas de calidad de datos de AWS Glue para proporcionar contexto en un momento dado, por ejemplo, durante una búsqueda en un catálogo de datos empresariales. Los usuarios de datos pueden ver cómo las métricas de calidad de los datos cambian a lo largo del tiempo para sus activos suscritos. Los productores de datos pueden incorporar las puntuaciones de calidad de los datos de AWS Glue según un cronograma. El catálogo de datos empresariales de Amazon DataZone también puede mostrar métricas de calidad de datos de sistemas de terceros a través de API de calidad de datos. Para obtener más información, consulte calidad de datos de AWS Glue e Introducción a la calidad de datos de AWS Glue para el catálogo de datos.

Puede habilitar métricas de calidad de datos para sus activos de Amazon DataZone de las siguientes formas:

  • Utilice el portal de datos o las API de Amazon DataZone para habilitar la calidad de los datos de su origen de datos de AWS Glue a través del portal de datos de Amazon DataZone, ya sea al crear una fuente de datos de Glue AWS nueva o editar la existente.

    Para obtener más información sobre cómo habilitar la calidad de los datos para un origen de datos a través del portal, consulte Creación y ejecución de un origen de datos de Amazon DataZone para AWS Glue Data Catalog.

    nota

    Puede usar el portal de datos para habilitar la calidad de los datos solo para sus activos de inventario de AWS Glue. En esta versión de Amazon DataZone, no se admite la habilitación de la calidad de los datos para activos de Amazon Redshift o de tipos personalizados a través del portal de datos.

    También puede utilizar las API para habilitar la calidad de los datos de sus orígenes de datos nuevos o existentes. Para ello, invoque CreateDataSource o UpdateDataSource y establezca el parámetro autoImportDataQualityResult como “True”.

    Una vez habilitada la calidad de los datos, puede ejecutar el origen de datos bajo demanda o según lo programado. Cada ejecución puede generar hasta 100 métricas por activo. No es necesario crear formularios ni añadir métricas manualmente cuando se utiliza el origen de datos para garantizar la calidad de los datos. Cuando se publica el activo, las actualizaciones realizadas en el formulario de calidad de los datos (hasta 30 puntos de datos por regla histórica) se reflejan en el anuncio para los consumidores. Posteriormente, cada nueva incorporación de métricas al activo se añade automáticamente al anuncio. No es necesario volver a publicar el activo para que las puntuaciones más recientes estén disponibles para los consumidores.

Habilitación de la calidad de los datos para los tipos de activos personalizados

Puede usar las API de Amazon DataZone para habilitar la calidad de los datos en cualquiera de sus activos personalizados. Para obtener más información, consulte los siguientes temas:

Los siguientes pasos proporcionan un ejemplo del uso de las API o la CLI para importar métricas de terceros para sus activos en Amazon DataZone:

  1. Invoque la API PostTimeSeriesDataPoints de la siguiente manera:

    aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \

    con la siguiente carga útil:

    "domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }

    Puede obtener esta carga útil invocando la acción GetFormType:

    aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
  2. Invoque la API DeleteTimeSeriesDataPoints de la siguiente manera:

    aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \