Ingeniería de datos

Automatizar y organizar los flujos de datos en la organización.

Utilice los metadatos para automatizar las canalizaciones que procesan datos no procesados y generan resultados optimizados. Aproveche las barreras de protección arquitectónicas y los controles de seguridad existentes, tal como se definen en la arquitectura de la plataforma y las funcionalidades de ingeniería de la plataforma de AWS CAF, así como desde la perspectiva de las operaciones. Trabaje con el equipo de ingeniería de la plataforma para desarrollar esquemas reutilizables que se adapten a patrones comunes que simplifiquen la implementación de las canalizaciones.

Iniciar

Implementar un lago de datos

Establezca las funcionalidades fundamentales del almacenamiento de datos mediante el uso de soluciones de almacenamiento adecuadas para los datos estructurados y no estructurados. Esto le permite recopilar y almacenar los datos de diversos orígenes y hace que los datos sean accesibles para su posterior procesamiento y análisis. El almacenamiento de datos es un componente fundamental de una estrategia de ingeniería de datos. Una arquitectura de almacenamiento de datos bien diseñada permite a las organizaciones almacenar, administrar y acceder a sus datos de manera eficiente y rentable. AWS ofrece una variedad de servicios de almacenamiento de datos para satisfacer necesidades empresariales específicas.

Por ejemplo, puede establecer funcionalidades básicas de almacenamiento de datos mediante Amazon Simple Storage Service (Amazon S3) para el almacenamiento de objetos, Amazon Relational Database Service (Amazon RDS) para las bases de datos relacionales y Amazon Redshift para el almacenamiento de datos. Estos servicios son útiles para almacenar los datos de forma segura y rentable. Facilitan el acceso a los datos para su posterior procesamiento y análisis. Le recomendamos que también implemente las prácticas recomendadas de almacenamiento de datos, como la partición y la compresión de datos, para mejorar el rendimiento y reducir los costos.

Desarrollo de patrones de ingesta de datos

Para automatizar y organizar los flujos de datos, establezca los procesos de ingesta de datos para recopilar los datos de diversos orígenes, tales como bases de datos, archivos y API. Los procesos de la ingesta de datos deben facilitar la agilidad empresarial y tener en cuenta los controles de gobernanza.

El orquestador debe poder ejecutar servicios basados en la nube y proporcionar un mecanismo de programación automatizado. Debe ofrecer opciones para establecer vínculos condicionales y dependencias entre tareas, además de funcionalidades de sondeos y gestión de errores. Además, debe integrarse perfectamente con los sistemas de alerta y supervisión para garantizar que las canalizaciones funcionen sin problemas.

Algunos de los mecanismos de orquestación más populares incluyen los siguientes:

La orquestación basada en el tiempo inicia un flujo de trabajo en un intervalo recursivo y con una frecuencia definida.
La orquestación basada en eventos inicia un flujo de trabajo según la aparición de un evento, como la creación de un archivo o una solicitud de API.
El sondeo implementa un mecanismo en el que una tarea o un flujo de trabajo llama a un servicio (por ejemplo, a través de una API) y espera una respuesta definida antes de continuar con el paso siguiente.

El diseño de la arquitectura moderna hace hincapié en aprovechar los servicios administrados que simplifican la administración de la infraestructura en la nube y reducen la carga de trabajo para los desarrolladores y los equipos de infraestructura. Este enfoque también se aplica a la ingeniería de datos. Le recomendamos utilizar los servicios administrados cuando corresponda para crear canalizaciones de ingesta de datos a fin de acelerar los procesos de ingeniería de datos. Dos ejemplos de estos tipos de servicios son Amazon Managed Workflows para Apache Airflow (Amazon MWAA) y AWS Step Functions:

Apache Airflow es una herramienta popular de orquestación para crear, programar y supervisar los flujos de trabajo mediante programación. AWS ofrece Amazon Managed Workflows para Apache Airflow (Amazon MWAA) como un servicio administrado que permite a los desarrolladores centrarse en crear, en lugar de administrar, la infraestructura de la herramienta de organización. Amazon MWAA facilita crear flujos de trabajo mediante scripts de Python. Un gráfico acíclico dirigido (DAG) representa un flujo de trabajo como un conjunto de tareas de manera que muestra las relaciones y dependencias de cada tarea. Puede tener todos los DAG que desee y Apache Airflow los ejecutará de acuerdo con las relaciones y dependencias de cada tarea.
AWS Step Functions ayuda a los desarrolladores a crear un flujo de trabajo visual de poco código para automatizar los procesos empresariales y de TI. Los flujos de trabajo que crea con Step Functions se llaman máquinas de estados y cada paso del flujo de trabajo se llama estado. Puede utilizar Step Functions para crear los flujos de trabajo para la gestión integrada de errores, el paso de parámetros, la configuración de seguridad recomendada y la administración del estado. Reduce la cantidad de código que tiene que escribir y mantener. Las tareas se hacen al coordinarlas con otro servicio de AWS o una aplicación que aloje en las instalaciones o en un entorno de nube.

Acelerar el procesamiento de los datos

El procesamiento de los datos es un paso crucial para dar sentido a las cantidades enormes de datos que recopilan las organizaciones modernas. Para comenzar con el procesamiento de los datos, AWS ofrece servicios administrados como AWS Glue, que brinda funcionalidades eficaces de extracción, transformación y carga (ETL). Las organizaciones pueden utilizarlos para empezar a procesar y transformar los datos no procesados, lo que incluye la limpieza, la normalización y la agregación de datos para prepararlos para el análisis.

El procesamiento de los datos empieza con técnicas sencillas, como la agregación y el filtrado, para hacer las transformaciones iniciales de los datos. A medida que evolucionan las necesidades del procesamiento de los datos, puede implementar los procesos de ETL más avanzados que le permitan extraer datos de orígenes diversos, transformarlos para adaptarlos a sus necesidades concretas y cargarlos en un almacén de datos o base de datos centralizados para analizarlos de manera unificada. Este enfoque garantiza que los datos sean precisos y estén completos y disponibles para su análisis de manera oportuna.

Al utilizar los servicios gestionados por AWS para el procesamiento de los datos, las organizaciones pueden beneficiarse de un mayor nivel de automatización, escalabilidad y rentabilidad. Estos servicios automatizan muchas tareas rutinarias del procesamiento de los datos, como la detección de esquemas, la creación de perfiles y la transformación de datos. Liberan recursos valiosos para las actividades más estratégicas. Además, estos servicios se escalan de manera automática para admitir los crecientes volúmenes de datos.

Proporcionar servicios de visualización de los datos

Encuentre maneras de hacer que los datos estén disponibles para los responsables de la toma de decisiones que utilizan la visualización de los datos para interpretarlos de manera significativa y rápida. A través de las visualizaciones, puede interpretar los patrones y aumentar la participación de un conjunto diverso de partes interesadas, sean cuales sean sus habilidades técnicas. Una buena plataforma permite a los equipos de ingeniería de datos aprovisionar recursos que permiten visualizar los datos de forma rápida y con poca sobrecarga. También puede proporcionar funcionalidades de autoservicio mediante herramientas que pueden consultar fácilmente los almacenes de datos sin necesidad de tener conocimientos de ingeniería. Considere la posibilidad de utilizar herramientas integradas que puedan proporcionar inteligencia empresarial sin servidores a través de imágenes de datos y paneles interactivos, y que puedan utilizar un lenguaje natural para consultar los datos de backend.

Avanzado

Implementar un procesamiento de los datos casi en tiempo real

El procesamiento de los datos es un componente esencial de cualquier canalización de ingeniería de datos, que permite a las organizaciones transformar los datos sin procesar en información significativa. Además del procesamiento por lotes tradicional, el procesamiento de los datos en tiempo real se ha vuelto cada vez más importante en el acelerado entorno empresarial actual. El procesamiento de los datos en tiempo real permite a las organizaciones responder a los eventos a medida que se producen y mejora la toma de decisiones y la eficiencia operativa.

Validar la calidad de los datos

La calidad de los datos afecta de manera directa a la precisión y la fiabilidad de la información y las decisiones que se derivan de los datos. La implementación de los procesos de validación y limpieza de datos es esencial para garantizar que se utilizan datos confiables y de alta calidad para los análisis.

La validación de los datos implica verificar la precisión, la integridad y la coherencia de los datos al compararlos con las reglas y los criterios predefinidos. Esto ayuda a identificar las discrepancias o los errores en los datos y garantiza que sean adecuados para su propósito. La limpieza de datos implica identificar y corregir las imprecisiones, las incoherencias o las duplicaciones en los datos.

Al implementar los procesos y las herramientas de calidad de los datos, las organizaciones pueden mejorar la precisión y la fiabilidad de la información derivada de los datos, lo que se traduce en una mejor toma de decisiones y en una mayor eficiencia operativa. Esto no solo mejora el rendimiento de la organización, sino que también aumenta la confianza de las partes interesadas en los datos y los análisis que se producen.

Demostrar servicios de transformación de los datos

La transformación de los datos prepara los datos para los modelos avanzados de análisis y machine learning. Implica el uso de técnicas como la normalización, el enriquecimiento y la deduplicación de los datos para garantizar que estén limpios, sean coherentes y estén listos para los análisis.

La normalización de los datos implica organizar los datos en un formato estándar, eliminar las redundancias y garantizar que sean coherentes en los orígenes distintos. Esto facilita analizar y comparar los datos de varios orígenes y permite a las organizaciones comprender sus operaciones de manera más completa.
El enriquecimiento de los datos implica mejorar los datos existentes con información adicional de orígenes externos, como los datos demográficos o las tendencias del mercado. Esto proporciona información valiosa sobre el comportamiento de los clientes o las tendencias del sector que tal vez no se desprenda solo de los orígenes de datos internos.
La deduplicación implica identificar y eliminar las entradas de datos duplicadas y garantizar que los datos sean precisos y no tengan errores. Esto es especialmente importante cuando se trata de conjuntos de datos grandes, en los que incluso un pequeño porcentaje de duplicación podría sesgar los resultados del análisis.

Al utilizar técnicas avanzadas de transformación de los datos, las organizaciones se aseguran de que sus datos sean de alta calidad, precisos y estén listos para análisis más complejos. Esto permite tomar mejores decisiones, aumentar la eficiencia operativa y obtener una ventaja competitiva en el mercado.

Habilitar la democratización de los datos

Promueva una cultura de la democratización de los datos. Para ello, haga que todos los empleados puedan acceder a los datos, puedan comprenderlos y utilizarlos. La democratización de los datos ayuda a los empleados a tomar decisiones según los datos y contribuye a la cultura basada en los datos de la organización. Esto significa eliminar los silos y crear una cultura en la que todos los empleados compartan y utilicen los datos para tomar decisiones.

En general, la democratización de los datos se trata de crear una cultura en la que los datos sean valorados, accesibles y comprensibles para todos los miembros de la organización. Al permitir la democratización de los datos, las organizaciones fomentan una cultura basada en los datos que impulsa la innovación, mejora la toma de decisiones y, a fin de cuentas, conduce al éxito empresarial.

Excel

Proporcionar una orquestación basada en la interfaz de usuario

Para crear organizaciones que sean ágiles y utilicen enfoques eficaces, es importante planificar una plataforma de orquestación moderna que utilicen los recursos de desarrollo y operaciones en las líneas de negocio. El objetivo es desarrollar, implementar y compartir los flujos de datos y los flujos de trabajo sin depender de un solo equipo, tecnología o modelo de soporte. Esto se logra mediante funcionalidades como la orquestación basada en la interfaz de usuario. Las características como la interacción de arrastrar y soltar permiten a los usuarios con poca experiencia técnica construir DAG y generar flujos de datos de máquinas de estado. Luego, estos componentes pueden generar código ejecutable que orquesta canalizaciones de datos.

DataOps ayuda a superar las complejidades de la administración de los datos y garantiza un flujo de datos fluido en las organizaciones. Un enfoque basado en los metadatos garantiza la calidad y el cumplimiento de los datos de acuerdo con los mandatos de su organización. La inversión en conjuntos de herramientas como los microservicios, la creación de contenedores y las funciones sin servidor mejora la escalabilidad y la agilidad.

Confiar en los equipos de ingeniería de datos para generar valor a partir de estos y dejar las tareas diarias de infraestructura a cargo de la automatización permite a las organizaciones alcanzar la excelencia en la automatización y la orquestación. La supervisión y el registro casi en tiempo real de las tareas de administración de flujos de datos permiten adoptar medidas correctivas inmediatas y mejoran el rendimiento y la seguridad de la canalización del flujo de datos. Estos principios ayudan a lograr la escalabilidad y el rendimiento, además de que garantizan un modelo seguro de intercambio de datos y preparan a las organizaciones para el éxito en el futuro.

Integrar DataOps

DataOps es un enfoque moderno de la ingeniería de datos que hace hincapié en la integración de los procesos de desarrollo y operaciones para simplificar la creación, las pruebas y la implementación de las canalizaciones de datos. Para implementar las prácticas recomendadas de DataOps, las organizaciones utilizan herramientas de infraestructura como código (IaC) y herramientas de integración y entrega continuas (CI/CD). Estas herramientas permiten la creación, las pruebas y la implementación automatizadas de las canalizaciones, lo que mejora en gran medida la eficiencia y reduce los errores. Los equipos de DataOps trabajan con los equipos de habilitación de ingeniería de plataformas con el fin de crear estas automatizaciones, para que cada equipo pueda centrarse en lo que mejor sabe hacer.

La implementación de las metodologías de DataOps ayuda a fomentar un entorno de colaboración en los ingenieros de datos, los científicos de datos y los usuarios empresariales. Esto permite desarrollar, implementar y supervisar rápidamente las canalizaciones de los datos y las soluciones de análisis. Este enfoque proporciona una comunicación y una colaboración más fluidas en los equipos, lo que significa innovar con más rapidez y obtener mejores resultados.

Para aprovechar al máximo los beneficios que brinda DataOps, es importante optimizar los procesos de la ingeniería de datos. Esto se logra con las prácticas recomendadas de los equipos de ingeniería de plataformas, que incluyen la revisión del código, la integración continua y las pruebas automatizadas. Al implementar estas prácticas, las organizaciones se aseguran de que las canalizaciones de los datos sean confiables, escalables y seguras, y de que satisfagan las necesidades de las partes interesadas técnicas y empresariales.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Arquitectura de los datos

Aprovisionamiento y orquestación