Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparación y limpieza de datos
La preparación y la limpieza de los datos son una de las etapas más importantes del ciclo de vida de los datos, pero tardan más tiempo. En el diagrama siguiente se muestra cómo la etapa de preparación y limpieza de los datos se adapta al ciclo de vida de la ingeniería de datos, la automatización y el control de acceso.
A continuación, se muestran algunos ejemplos de la preparación o la limpieza de los datos:
-
Asignación de columnas de texto a códigos
-
Omisión de columnas vacías
-
Rellenado de campos de datos vacíos con
0,Noneo'' -
Anonimización o enmascaramiento de información de identificación personal (PII)
Si tiene una carga de trabajo grande con una gran variedad de datos, le recomendamos utilizar Amazon EMRDataFrame o DynamicFrame para funcionar con un procesamiento horizontal. Además, puede usar AWS Glue DataBrew
Para las cargas de trabajo más pequeñas que no requieren un procesamiento distribuido y se pueden completar en menos de 15 minutos, le recomendamos utilizar AWS Lambda
Es esencial elegir el servicio de AWS correcto para la preparación y limpieza de los datos y comprender las desventajas que implica su elección. Por ejemplo, considere un escenario en el que elija entre AWS Glue y Amazon EMR. DataBrew AWS Glue es ideal si el trabajo de ETL es poco frecuente. Un trabajo poco frecuente se hace una vez al día, una vez a la semana o una vez al mes. Además, puede suponer que los ingenieros de datos son expertos en escribir el código de Spark (para casos de uso de macrodatos) o en crear scripts en general. Si el trabajo es más frecuente, ejecutar AWS Glue de manera constante puede resultar costoso. En este caso, Amazon EMR proporciona funcionalidades de procesamiento distribuido y ofrece una versión sin servidor y una basada en servidor. Si sus ingenieros de datos no tienen las habilidades adecuadas o si usted debe ofrecer resultados rápidamente, entonces DataBrew es una buena opción. DataBrew puede reducir el esfuerzo de desarrollar código y acelerar el proceso de preparación y limpieza de datos.
Una vez finalizado el procesamiento, los datos del proceso de ETL se almacenan en AWS. La elección del almacenamiento depende del tipo de datos con los que trabaje. Por ejemplo, podría trabajar con datos no relacionales, como datos de gráficos, datos de pares clave-valor, imágenes, archivos de texto o datos estructurados relacionales.
Como se muestra en el diagrama siguiente, puede utilizar los servicios siguientes de AWS para el almacenamiento de datos:
-
Amazon S3
almacena datos no estructurados o semiestructurados (por ejemplo, archivos, imágenes y videos de Apache Parquet). -
Amazon Neptune
almacena conjuntos de datos de gráficos que puede consultar mediante SPARQL o GREMLIN. -
Amazon Keyspaces (para Apache Cassandra)
almacena conjuntos de datos compatibles con Apache Cassandra. -
Amazon Aurora
almacena conjuntos de datos relacionales. -
Amazon DynamoDB
almacena datos de documentos o valores clave en una base de datos de NoSQL. -
Amazon Redshift
almacena las cargas de trabajo de datos estructurados en un almacén de datos.
Al utilizar el servicio correcto con las configuraciones correctas, puede almacenar los datos de la manera más eficiente y eficaz. Esto minimiza el esfuerzo que implica la recuperación de datos.