Preparación y limpieza de datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación y limpieza de datos

La preparación y la limpieza de los datos son una de las etapas más importantes del ciclo de vida de los datos, pero tardan más tiempo. En el diagrama siguiente se muestra cómo la etapa de preparación y limpieza de los datos se adapta al ciclo de vida de la ingeniería de datos, la automatización y el control de acceso.

Diagrama de preparación y limpieza de los datos

A continuación, se muestran algunos ejemplos de la preparación o la limpieza de los datos:

  • Asignación de columnas de texto a códigos

  • Omisión de columnas vacías

  • Rellenado de campos de datos vacíos con 0, None o ''

  • Anonimización o enmascaramiento de información de identificación personal (PII)

Si tiene una carga de trabajo grande con una gran variedad de datos, le recomendamos utilizar Amazon EMR o AWS Glue para las tareas de la preparación y la limpieza de los datos. Amazon EMR y AWS Glue funcionan con datos no estructurados, semiestructurados y relacionales. Ambos servicios pueden utilizar Apache Spark para crear DataFrame o DynamicFrame para funcionar con un procesamiento horizontal. Además, puede usar AWS Glue DataBrew para limpiar y procesar datos sin necesidad de código. Además, DataBrew puede perfilar su conjunto de datos con estadísticas de columnas, proporcionar linajes de datos e incluir reglas de calidad de datos para todas las columnas o para determinadas columnas.

Para las cargas de trabajo más pequeñas que no requieren un procesamiento distribuido y se pueden completar en menos de 15 minutos, le recomendamos utilizar AWS Lambda para la preparación y la limpieza de los datos. Lambda es una opción rentable y ligera para las cargas de trabajo más pequeñas. Para datos de alta seguridad que no pueden entrar en la nube, le recomendamos que realice la anonimización de los datos en las instancias de Amazon Elastic Compute Cloud (Amazon EC2) mediante un servidor AWS Outposts.

Es esencial elegir el servicio de AWS correcto para la preparación y limpieza de los datos y comprender las desventajas que implica su elección. Por ejemplo, considere un escenario en el que elija entre AWS Glue y Amazon EMR. DataBrew AWS Glue es ideal si el trabajo de ETL es poco frecuente. Un trabajo poco frecuente se hace una vez al día, una vez a la semana o una vez al mes. Además, puede suponer que los ingenieros de datos son expertos en escribir el código de Spark (para casos de uso de macrodatos) o en crear scripts en general. Si el trabajo es más frecuente, ejecutar AWS Glue de manera constante puede resultar costoso. En este caso, Amazon EMR proporciona funcionalidades de procesamiento distribuido y ofrece una versión sin servidor y una basada en servidor. Si sus ingenieros de datos no tienen las habilidades adecuadas o si usted debe ofrecer resultados rápidamente, entonces DataBrew es una buena opción. DataBrew puede reducir el esfuerzo de desarrollar código y acelerar el proceso de preparación y limpieza de datos.

Una vez finalizado el procesamiento, los datos del proceso de ETL se almacenan en AWS. La elección del almacenamiento depende del tipo de datos con los que trabaje. Por ejemplo, podría trabajar con datos no relacionales, como datos de gráficos, datos de pares clave-valor, imágenes, archivos de texto o datos estructurados relacionales.

Como se muestra en el diagrama siguiente, puede utilizar los servicios siguientes de AWS para el almacenamiento de datos:

  • Amazon S3 almacena datos no estructurados o semiestructurados (por ejemplo, archivos, imágenes y videos de Apache Parquet).

  • Amazon Neptune almacena conjuntos de datos de gráficos que puede consultar mediante SPARQL o GREMLIN.

  • Amazon Keyspaces (para Apache Cassandra) almacena conjuntos de datos compatibles con Apache Cassandra.

  • Amazon Aurora almacena conjuntos de datos relacionales.

  • Amazon DynamoDB almacena datos de documentos o valores clave en una base de datos de NoSQL.

  • Amazon Redshift almacena las cargas de trabajo de datos estructurados en un almacén de datos.

Servicios de almacenamiento de datos.

Al utilizar el servicio correcto con las configuraciones correctas, puede almacenar los datos de la manera más eficiente y eficaz. Esto minimiza el esfuerzo que implica la recuperación de datos.