Tipos de nodos de linaje en Amazon DataZone Atributos clave en los nodos de linaje Visualización del linaje de datos Autorización de linaje de datos en Amazon DataZone Experiencia con muestras de linaje de datos en Amazon DataZone Cómo activar el linaje de datos en la consola de administración Uso programático del linaje DataZone de datos de Amazon Automatice el linaje para el catálogo de AWS Glue Automatización del linaje desde Amazon Redshift

Linaje de datos en Amazon DataZone

El linaje de datos de Amazon DataZone es una función OpenLineage compatible que puede ayudarlo a capturar y visualizar eventos de linaje, desde sistemas OpenLineage habilitados o hasta ellos, para rastrear los orígenes de los datos APIs, rastrear las transformaciones y ver el consumo de datos entre organizaciones. Le proporciona una visión global de sus activos de datos para ver el origen de los activos y su cadena de conexiones. Los datos de linaje incluyen información sobre las actividades del catálogo de datos empresariales DataZone de Amazon, incluida información sobre los activos catalogados, los suscriptores de esos activos y las actividades que se llevan a cabo fuera del catálogo de datos empresariales capturadas mediante programación mediante el. APIs

Temas

Tipos de nodos de linaje en Amazon DataZone
Atributos clave en los nodos de linaje
Visualización del linaje de datos
Autorización de linaje de datos en Amazon DataZone
Experiencia con muestras de linaje de datos en Amazon DataZone
Cómo activar el linaje de datos en la consola de administración
Uso programático del linaje DataZone de datos de Amazon
Automatice el linaje para el catálogo de AWS Glue
Automatización del linaje desde Amazon Redshift

El linaje se puede configurar para que se capture automáticamente de las bases de datos de AWS Glue y Amazon Redshift cuando se añada a Amazon. DataZone Además, el trabajo ETL de Spark se ejecuta en la consola AWS Glue (v5.0 y superior) o se pueden configurar los portátiles para enviar eventos de linaje a los dominios de Amazon. DataZone

En Amazon DataZone, los administradores de dominio pueden configurar el linaje y, al mismo tiempo, configurar los planos integrados del lago de datos y el almacén de datos, lo que garantiza que todas las ejecuciones de fuentes de datos creadas a partir de esos recursos estén habilitadas para la captura automática del linaje.

Con DataZone la OpenLineage compatibilidad con Amazon APIs, los administradores de dominios y los productores de datos pueden capturar y almacenar eventos de linaje más allá de lo que está disponible en Amazon DataZone, incluidas las transformaciones en Amazon S3, AWS Glue y otros servicios. Esto proporciona una visión integral a los consumidores de datos y les ayuda a ganar confianza en el origen del activo, mientras que los productores de datos pueden evaluar el impacto de los cambios en un activo al comprender su uso. Además, Amazon DataZone versiona el linaje con cada evento, lo que permite a los usuarios visualizar el linaje en cualquier momento o comparar las transformaciones en el historial de un activo o trabajo. Este historial de linajes proporciona una comprensión más profunda de la evolución de los datos, algo esencial para la resolución de problemas, la auditoría y la garantía de integridad de los activos de datos.

Con el linaje de datos, puede lograr lo siguiente en Amazon DataZone:

Comprenda la procedencia de los datos: saber dónde se originaron los datos fomenta la confianza en los datos al proporcionarle una comprensión clara de sus orígenes, dependencias y transformaciones. Esta transparencia ayuda a tomar decisiones fiables basadas en datos.
Comprenda el impacto de los cambios en las canalizaciones de datos: cuando se realizan cambios en las canalizaciones de datos, se puede utilizar el linaje para identificar a todos los consumidores en fases posteriores que se van a ver afectados. Esto ayuda a garantizar que los cambios se realicen sin interrumpir los flujos de datos críticos.
Identifique la causa raíz de los problemas de calidad de los datos: si se detecta un problema de calidad de los datos en un informe posterior, se puede utilizar el linaje, especialmente el linaje de columna, para rastrear los datos (de columna) e identificar el problema desde su origen. Esto puede ayudar a los ingenieros de datos a identificar y solucionar el problema.
Mejore la gobernanza y el cumplimiento de los datos: el linaje de columna se puede utilizar para demostrar el cumplimiento de las normas de gobernanza y privacidad de los datos. Por ejemplo, el linaje de columna se puede utilizar para mostrar dónde se almacenan los datos confidenciales (como la información de identificación personal) y cómo se procesan en las actividades posteriores.

Tipos de nodos de linaje en Amazon DataZone

en Amazon DataZone, la información del linaje de datos se presenta en nodos que representan tablas y vistas. Según el contexto del proyecto, por ejemplo, un proyecto seleccionado en la parte superior izquierda del portal de datos, los productores pueden ver tanto el inventario como los activos publicados, mientras que los consumidores solo pueden ver los activos publicados. Al abrir por primera vez la pestaña de linaje en la página de detalles del activo, el nodo del conjunto de datos catalogado es el punto de partida para desplazarse en sentido ascendente o descendente por los nodos de linaje del gráfico de linaje.

Los siguientes son los tipos de nodos de linaje de datos compatibles con Amazon DataZone:

Nodo de conjunto de datos: este tipo de nodo incluye información sobre el linaje de datos de un activo de datos específico.
- Los nodos de conjuntos de datos que incluyen información sobre los activos de AWS Glue o Amazon Redshift publicados en el DataZone catálogo de Amazon se generan automáticamente e incluyen el icono correspondiente de AWS Glue o Amazon Redshift en el nodo.
- Los nodos de conjuntos de datos que incluyen información sobre activos que no están publicados en el DataZone catálogo de Amazon los crean manualmente los administradores de dominio (productores) y se representan mediante un icono de activo personalizado predeterminado dentro del nodo.
Nodo de trabajo (ejecución): este tipo de nodo muestra los detalles del trabajo, incluida la última ejecución de un trabajo concreto y los detalles de la ejecución. Este nodo también captura varias ejecuciones del trabajo y se puede ver en la pestaña Historial de los detalles del nodo. Puede ver los detalles del nodo seleccionando el icono del nodo.

Atributos clave en los nodos de linaje

El atributo sourceIdentifier de un nodo de linaje representa los eventos que ocurren en un conjunto de datos. El sourceIdentifier del nodo de linaje es el identificador del conjunto de datos (tabla/vista, etc.). Se usa para garantizar la unicidad en los nodos del linaje. Por ejemplo, no puede haber dos nodos de linaje con el mismo nombre sourceIdentifier. A continuación se muestran ejemplos de valores sourceIdentifier para distintos tipos de nodos:

Para el nodo del conjunto de datos con el tipo de conjunto de datos respectivo:
- Activo: amazon.datazone.asset/<assetId>
- Listado (activo publicado): amazon.datazone.listing/<listingId>
- AWS <region><account-id><database>Mesa adhesiva: arn:aws:glue: :table//<table-name>
- Tabla/vista de Amazon Redshift: arn:aws:<redshift/redshift-serverless>:<region>:<account-id>:<table-type(tabla/vista, etc.)>/<clusterIdentifier/workgroupName>/<database>/<schema>/<table-name>
- Para cualquier otro tipo de nodo de conjunto de datos importado mediante eventos de ejecución de linaje abierto, se utiliza <namespace>/<name>del conjunto de datos de entrada/salida el sourceIdentifier del nodo.
Para trabajos:
- Para los nodos de trabajo importados mediante eventos de ejecución de linaje abierto, se utiliza <jobs_namespace>.<job_name> como SourceIdentifier.
Para ejecuciones de trabajos:
- Para los nodos de ejecución de trabajos importados mediante eventos de ejecución de linaje abierto, se usa <jobs_namespace>.<job_name>/<run_id> como SourceIdentifier.

En el caso de los activos creados mediante la API createAsset, el sourceIdentifier debe actualizarse mediante la API createAssetRevision para permitir la asignación del activo a los recursos iniciales.

Visualización del linaje de datos

La página DataZone de detalles de los activos de Amazon proporciona una representación gráfica del linaje de datos, lo que facilita la visualización de las relaciones de datos en sentido ascendente o descendente. La página de detalles del activo ofrece las siguientes funciones para navegar por el gráfico:

Linaje de columna: amplíe el linaje de columna cuando esté disponible en los nodos del conjunto de datos. Esto muestra automáticamente las relaciones con los nodos del conjunto de datos ascendentes o descendentes si la información de la columna de origen está disponible.
Búsqueda de columnas: cuando la visualización predeterminada para el número de columnas es 10. Si hay más de 10 columnas, se activa la paginación para navegar al resto de las columnas. Para ver rápidamente una columna en particular, puede buscar en el nodo del conjunto de datos que muestre solo la columna buscada.
Ver solo los nodos del conjunto de datos: si desea pasar a ver solo los nodos del linaje del conjunto de datos y filtrar los nodos de trabajo, puede elegir el icono de control Abrir vista en la parte superior izquierda del visor de gráficos y activar la opción Mostrar solo los nodos del conjunto de datos. Esto eliminará todos los nodos de trabajo del gráfico y le permitirá navegar solo por los nodos del conjunto de datos. Tenga en cuenta que cuando está activada la visualización exclusiva de los nodos del conjunto de datos, el gráfico no se puede expandir hacia arriba ni hacia abajo.
Panel de detalles: cada nodo de linaje tiene detalles capturados y mostrados cuando se selecciona.
- El nodo del conjunto de datos tiene un panel de detalles para mostrar todos los detalles capturados para ese nodo en una marca de tiempo determinada. Cada nodo del conjunto de datos tiene 3 pestañas, a saber: Información de linaje, Esquema e Historial. La pestaña del historial muestra un listado con las diferentes versiones del evento de linaje capturadas para ese nodo. Todos los detalles capturados de la API se muestran mediante formularios de metadatos o un visor JSON.
- El nodo de trabajo tiene un panel de detalles para mostrar los detalles del trabajo con pestañas, a saber: Información del trabajo e Historial. El panel de detalles también captura las consultas o expresiones capturadas como parte de la ejecución del trabajo. La pestaña del historial muestra las diferentes versiones del evento de ejecución del trabajo capturadas para ese trabajo. Todos los detalles capturados de la API se muestran mediante formularios de metadatos o un visor JSON.
Pestañas de versión: todos los nodos de linaje del linaje de DataZone datos de Amazon tienen control de versiones. Para cada nodo de conjunto de datos o nodo de trabajo, las versiones se capturan como historial, lo que le permite navegar entre las distintas versiones para identificar qué ha cambiado con el tiempo. En cada versión se abre una nueva pestaña en la página del linaje para ayudar a comparar o contrastar.

Autorización de linaje de datos en Amazon DataZone

Permisos de escritura: para publicar datos de linaje en Amazon DataZone, debes tener un rol de IAM con una política de permisos que incluya una ALLOW acción en la PostLineageEvent API. Esta autorización de IAM se produce en la capa API Gateway.

Permisos de lectura: hay dos operaciones: GetLineageNode y ListLineageNodeHistory están incluidas en la política AmazonDataZoneDomainExecutionRolePolicy gestionada y, por lo tanto, todos los usuarios del DataZone dominio de Amazon pueden invocarlas para recorrer el gráfico de linaje de datos.

Experiencia con muestras de linaje de datos en Amazon DataZone

Puede utilizar la experiencia de muestreo de linaje de datos para buscar y comprender el linaje de datos en Amazon DataZone, lo que incluye recorrer el gráfico de linaje de datos en sentido ascendente o descendente y explorar las versiones y el linaje a nivel de columna.

Complete el siguiente procedimiento para probar la experiencia de linaje de datos de muestra en Amazon: DataZone

Ve a la URL del portal de DataZone datos de Amazon e inicia sesión con el inicio de sesión único (SSO) o tus credenciales. AWS Si eres DataZone administrador de Amazon, puedes ir a la DataZone consola de Amazon en https://console.aws.amazon.com/datazone e iniciar sesión con el Cuenta de AWS lugar donde se creó el dominio y, a continuación, elegir Open data portal.
Elija cualquier activo de datos disponible para abrir la página de detalles del activo.
En la página de detalles del dominio, haga clic en la pestaña Linaje y, después, pase el cursor por el icono de información antes de hacer clic en Probar linaje de muestra.
En la ventana emergente sobre el linaje de datos, seleccione Iniciar un recorrido guiado por el linaje de datos.

En este punto, se muestra una pestaña a pantalla completa con todo el espacio necesario para la información del linaje. El gráfico de linaje de datos de muestra aparece en principio con un nodo de base con 1 profundidad en cada extremo, en dirección ascendente y descendente. Puede expandir el gráfico en sentido ascendente o descendente. La información de las columnas también está disponible para que pueda elegir y ver cómo fluye el linaje a través de los nodos.

Cómo activar el linaje de datos en la consola de administración

Puede activar el linaje de datos como parte de la configuración de los esquemas del lago de datos predeterminado y del almacén de datos predeterminado.

Siga el procedimiento descrito a continuación a fin de activar el linaje de datos para el esquema del lago de datos predeterminado.

Ve a la DataZone consola de Amazon en https://console.aws.amazon.com/datazone e inicia sesión con las credenciales de tu cuenta.
Selecciona Ver dominios y elige el dominio en el que quieres habilitar el linaje de datos para tu blueprint. DefaultDataLake
En la página de detalles del dominio, vaya a la pestaña Esquemas.
En la página de detalles del DefaultDataLake plano, selecciona la pestaña Regiones.
Puede habilitar el linaje de datos como parte de la adición de una región a su DefaultDataLake plan. Por lo tanto, si ya se ha agregado una región pero la función de linaje de datos no está activada (aparece un No en la columna Importar linaje de datos), primero debe eliminar esta región. Para activar el linaje de datos, haga clic en Agregar región, elija la región que desee agregar y marque la casilla Activar la importación del linaje de datos en la ventana emergente Agregar región.

Para habilitar el linaje de datos en su DefaultDataWarehouse blueprint, complete el siguiente procedimiento.

Ve a la DataZone consola de Amazon en https://console.aws.amazon.com/datazone e inicia sesión con las credenciales de tu cuenta.
Selecciona Ver dominios y elige el dominio en el que quieres habilitar el linaje de datos para tu blueprint. DefaultDataWarehouse
En la página de detalles del dominio, vaya a la pestaña Esquemas.
En la página de detalles del DefaultDataWarehouse plano, seleccione la pestaña Conjuntos de parámetros.
Puede habilitar el linaje de datos como parte de la adición de un conjunto de parámetros para su DefaultDataWarehouse esquema. Para ello, haga clic en Crear conjunto de parámetros.
En la página Crear conjunto de parámetros, especifique lo siguiente y, a continuación, haga clic en Crear conjunto de parámetros.
- Especifique un nombre para el conjunto de parámetros.
- Especifique una descripción para el conjunto de parámetros.
- AWS Región en la que desea crear entornos.
- Especifique si Amazon DataZone va a utilizar estos parámetros para establecer una conexión con su clúster o grupo de trabajo sin servidor de Amazon Redshift.
- Especifique un secreto. AWS
- Especifique el clúster o el grupo de trabajo sin servidor que quiera utilizar a la hora de crear entornos.
- Especifique el nombre de la base de datos (dentro del clúster o grupo de trabajo especificados) que desee utilizar al crear entornos.
- En Importar linaje de datos, marque la casilla Activar la importación del linaje de datos.

Uso programático del linaje DataZone de datos de Amazon

Para utilizar la funcionalidad de linaje de datos en Amazon DataZone, puede invocar lo siguiente: APIs

Automatice el linaje para el catálogo de AWS Glue

A medida que se añaden las bases de datos y tablas de AWS Glue al DataZone catálogo de Amazon, la extracción del linaje de esas tablas se automatiza mediante ejecuciones de fuentes de datos. Existen varias formas de automatizar el linaje para este origen:

Configuración del esquema: los administradores que configuran esquemas pueden activar la captura automática del linaje en los esquemas. Esto permite a los administradores definir qué orígenes de datos son importantes para la captura del linaje, en lugar de depender de que los productores de datos cataloguen los datos. Para obtener más información, consulte Cómo activar el linaje de datos en la consola de administración.
Configuración de la fuente de datos: a los productores de datos, al configurar las ejecuciones de fuentes de datos para las bases de datos de AWS Glue, se les presenta una vista junto con la calidad de los datos para informar sobre el linaje de datos automatizado de esa fuente de datos.
- La configuración del linaje se puede ver en la pestaña Definición del origen de datos. Los productores de datos no pueden editar este valor.
- La recopilación de linajes de Data Source run obtiene información de los metadatos de las tablas para crear el linaje. AWS Glue crawler admite distintos tipos de fuentes y las fuentes para las que se captura el linaje como parte de la ejecución de la fuente de datos incluyen Amazon S3, DynamoDB, Catalog, Delta Lake, tablas Iceberg y tablas Hudi almacenadas en Amazon S3. JDBC y DocumentDB o MongoDB no constituyen orígenes compatibles en este momento.
- Limitación: si el número de tablas es mayor a 100, las ejecuciones de linajes fallarán una vez superadas las 100 tablas. Asegúrese de que el rastreador AWS Glue no esté configurado para incorporar más de 100 tablas a la vez.
AWS Configuración de Glue (v5.0): mientras se ejecutan tareas de AWS Glue en AWS Glue Studio, se puede configurar el linaje de datos para que las tareas envíen eventos de linaje directamente al dominio de Amazon. DataZone
1. Ve a la consola de AWS Glue en https://console.aws.amazon.com /gluestudio e inicia sesión con las credenciales de tu cuenta.
2. Elija Trabajos de ETL y cree uno nuevo, o bien haga clic en uno de los trabajos existentes.
3. Vaya a la pestaña Detalles del trabajo (incluido el trabajo de ETL Flows) y desplácese hacia abajo, hasta la sección Generar eventos de linaje.
4. Selecciona la casilla de verificación para habilitar el envío de eventos de linaje y se expande para mostrar un campo de entrada para introducir el ID de DataZone dominio de Amazon.
AWS Configuración del portátil Glue (V5.0): en un portátil, puedes automatizar la recopilación de ejecuciones de Spark añadiendo la magia de %%configure. Esta configuración enviará los eventos al DataZone dominio de Amazon.
```
%%configure --name project.spark -f
{
    "--conf":"spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener --conf spark.openlineage.transport.type=amazon_datazone_api --conf spark.openlineage.transport.domainId={DOMAIN_ID}  --conf spark.glue.accountId={ACCOUNT_ID} --conf spark.openlineage.facets.custom_environment_variables=[AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION; --conf spark.glue.JOB_NAME={JOB_NAME}"
}
                    
```
A continuación se exponen los detalles de los parámetros:
- spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener- se OpenLineageSparkListener creará y registrará en el bus de escucha de Spark
- spark.openlineage.transport.type=amazon_datazone_api- Esta es una OpenLineage especificación para indicar al OpenLineage plugin que utilice DataZone API Transport para emitir eventos de linaje a su DataZone API. PostLineageEvent Para obtener más información, consulta https://openlineage. io/docs/integrations/spark/configuration/spark_conf
- spark.openlineage.transport.domainId={DOMAIN_ID}: este parámetro establece el dominio al cual el transporte de la API enviará los eventos de linaje.
- spark.openlineage.facets.custom_environment_variables [AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION;]- Las siguientes variables de entorno (GLUE_VERSIONAWS_DEFAULT_REGION , GLUE_COMMAND_CRITERIA y GLUE_PYTHON_VERSION), que rellena la sesión interactiva de Glue, se añadirán al LineageEvent
- spark.glue.accountId=<ACCOUNT_ID>: identificador de la cuenta del catálogo de datos de Glue en el que residen los metadatos. Este identificador se utiliza para construir el ARN de Glue en un evento de linaje.
- spark.glue.JOB_NAME: nombre del trabajo del evento de linaje. El nombre del trabajo en el cuaderno se puede configurar como spark.glue.JOB_NAME: ${projectId}.${pathToNotebook}.

Configura los parámetros para configurar la comunicación con Amazon DataZone desde AWS Glue

Clave de los parámetros: --conf

Valor de los parámetros:



spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener 
--conf spark.openlineage.transport.type=amazon_datazone_api 
--conf spark.openlineage.transport.domainId=<DOMAIN_ID>
--conf spark.openlineage.facets.custom_environment_variables=[AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION;] 
--conf spark.glue.accountId=<ACCOUNT_ID> (replace <DOMAIN_ID> and <ACCOUNT_ID> with the right values)

Para los cuadernos, añada estos otros parámetros:



--conf spark.glue.JobName=<SessionId> --conf spark.glue.JobRunId=<SessionId or NONE?>
replace <SessionId> and <SessionId> with the right values

Automatización del linaje desde Amazon Redshift

Al capturar el linaje del servicio Amazon Redshift con la configuración del plano del almacén de datos configurada por los administradores, Amazon captura automáticamente el linaje. DataZone El linaje ejecuta captura las consultas ejecutadas para una base de datos determinada y genera eventos de linaje que se almacenan en Amazon DataZone para que los productores de datos o los consumidores los visualicen cuando acceden a un activo en particular.

El linaje puede automatizarse mediante las siguientes configuraciones:

Configuración del esquema: los administradores que configuran esquemas pueden activar la captura automática del linaje en los esquemas. Esto permite a los administradores definir qué orígenes de datos son importantes para la captura del linaje, en lugar de depender de que los productores de datos cataloguen los datos. Para configurarlo, vaya a Cómo activar el linaje de datos en la consola de administración.
Configuración del origen de datos: los productores de datos, al configurar las ejecuciones de orígenes de datos para bases de datos de Amazon Redshift, encuentran la configuración del linaje de datos automatizada para dicho origen de datos.

La configuración del linaje se puede ver en la pestaña Definición del origen de datos. Los productores de datos no pueden editar este valor.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso del aprendizaje automático y la IA generativa en Amazon DataZone

Normas de aplicación de metadatos para publicaciones