Arquitectura de los datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Arquitectura de los datos

Diseñe y desarrolle una arquitectura de datos y análisis adecuada para su propósito.

Una arquitectura de datos y análisis bien diseñada es esencial para obtener información útil. Al diseñar y desarrollar una arquitectura de datos y análisis adecuada para su propósito, las organizaciones reducen la complejidad, los costos y la deuda técnica, además de que obtienen información valiosa a partir de sus volúmenes de datos cada vez mayores. Al alinearse con los principios de AWS CAF, las empresas pueden crear una arquitectura de datos que se integre a la perfección con su plataforma actual. Esta alineación les permite aprovechar las ventajas que ofrecen las tecnologías modernas de procesamiento y análisis de datos.

La arquitectura de datos y análisis es el esquema de las funcionalidades de una organización para obtener valor de los datos. Ayuda a la organización a obtener nueva información empresarial y es un catalizador del crecimiento empresarial. Para satisfacer las necesidades empresariales, una arquitectura de datos moderna debe ajustarse a los objetivos empresariales al corto y largo plazo y adaptarse exclusivamente a los requisitos culturales y contextuales de la organización. En el mundo actual, la implementación y la adopción correctas de una arquitectura de datos y análisis se basan en el principio de proporcionar los datos correctos en el momento adecuado al consumidor correcto.

Esto se logra mediante la planificación y organización del modelado de los activos de datos de una organización, física o lógicamente, cómo se protegen los datos y cómo estos modelos de datos interactúan entre sí para abordar los problemas empresariales, derivar patrones desconocidos y generar información.

Iniciar

Definición de la funcionalidad global

En el entorno empresarial actual, es indispensable que la plataforma de análisis de datos moderna obtenga valor de los datos para admitir varios dominios de la organización. En lugar de adoptar un enfoque de arquitectura de datos único, la arquitectura de datos moderna debe incluir conjuntos de herramientas y patrones personalizados y optimizados para casos de uso específicos. La arquitectura debe poder evolucionar e incluir componentes básicos, como lagos de datos escalables, servicios de análisis personalizados, acceso unificado a los datos y gobernanza unificada.

Organización de las zonas de datos

La manera de organizar y almacenar los datos para acceder a estos fácil y rápidamente es un aspecto fundamental de la arquitectura de datos. Esto se puede lograr al configurar las zonas de datos personalizadas en un lago de datos. Las zonas de datos se clasifican de la manera siguiente:

  • Datos sin procesar que se recopilan de orígenes heterogéneos

  • Datos seleccionados y transformados para satisfacer las necesidades analíticas de cada dominio

  • Data marts basados en casos de uso o productos para las necesidades de generación de informes

  • Datos expuestos de manera externa con controles de seguridad y cumplimiento

Plan para la agilidad y democratización de los datos

La eficacia de una plataforma de análisis depende de la velocidad de aprovisionamiento de los datos y de la democratización de los datos aprovisionados para su consumo. La agilidad del aprovisionamiento de los datos se logra gracias a la capacidad de la arquitectura de datos para obtener y procesar datos de formas diversas, como en tiempo real, casi en tiempo real, por lotes, microlotes o híbridos, según el caso de uso. La democratización de los datos se logra al definir los flujos de trabajo de intercambio de datos y control de acceso que supervisan los administradores de datos. La implementación de un mercado de datos es uno de los factores que permiten la democratización de los datos.

Definición de la entrega segura de los datos

Una arquitectura de datos moderna es una fortaleza para el mundo exterior en materia de seguridad, pero permite acceder fácilmente a los empleados o usuarios de datos, según lo definen sus funciones laborales, y cumple con las restricciones de cumplimiento, como la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA), la información de identificación personal (PII), el Reglamento General de Protección de Datos (RGPD), etc. Se logra mediante métodos de control de acceso basado en roles (RBAC) y control de acceso basado en etiquetas (TBAC). En AWS, las etiquetas se utilizan para controlar el acceso a los datos y simplificar la administración del control de acceso. Hágalo de acuerdo con los principios que se describen en la perspectiva de seguridad de AWS CAF.

Plan para garantizar la rentabilidad

Los almacenes de datos tradicionales ofrecen la computación y el almacenamiento estrechamente acoplados con un costo alto del uso de los recursos. Una arquitectura moderna desvincula la computación y el almacenamiento e implementa un almacenamiento por niveles según el ciclo de vida de los datos. Por ejemplo, en AWS, puede utilizar Amazon Simple Storage Service (Amazon S3) para controlar los costos y desvincular el almacenamiento de datos de la computación. Las clases de almacenamiento de Amazon S3 están diseñadas específicamente para proporcionar el almacenamiento de menor costo para diferentes patrones de acceso. Además, las herramientas de computación de AWS (como Amazon Athena, AWS Glue, Amazon Redshift y Amazon SageMaker Runtime) no tienen servidor, por lo que no tiene que administrar la infraestructura y solo paga por lo que utiliza. 

Avanzado

La arquitectura de datos moderna podría mejorarse aún más para aumentar el alcance del uso de los datos, desde los análisis estándar que respaldan las funciones empresariales y operativas hasta las funcionalidades más complejas que respaldan las predicciones y la información, y ayuda a tomar decisiones más rápidamente. Para lograrlo, la arquitectura admite las funcionalidades que se describen en las secciones siguientes.

Comprensión de la ingeniería de características

La ingeniería de características utiliza el machine learning e implica la configuración de almacenes de características o mercados de características. Los equipos de ciencia de datos crean nuevas características (atributos derivados) para los modelos de aprendizaje supervisado y no supervisado. Las almacenan en mercados de características para simplificar la transformación y mejorar la precisión de los datos. Las empresas pueden reutilizar las características en varios modelos de análisis, lo que mejora la velocidad de comercialización.

Plan para desnormalizar los conjuntos de datos

La creación de conjuntos de datos desnormalizados o mercados de datos podría simplificar en gran medida los conjuntos de datos para los usuarios empresariales, ya que permitiría disponer fácilmente de los datos necesarios en una ubicación única y aumentaría la velocidad de los análisis. Si se diseña con detenimiento, un registro podría admitir varios modelos de uso y reducir el ciclo de vida general del desarrollo. La gobernanza eficaz de los conjuntos de datos desnormalizados también es importante por dos motivos. La implementación de los datos desnormalizados podría crear una gran cantidad de conjuntos de datos redundantes, lo que podría convertirse en un desafío de administrar a escala. Además, podría ser cada vez más difícil reutilizar estos conjuntos de datos si no se modelan correctamente. 

Portabilidad y escalabilidad del diseño

Las organizaciones grandes rara vez tienen todas sus aplicaciones y usuarios en una plataforma de datos única. Sus aplicaciones y almacenes de datos suelen estar distribuidos en las plataformas heredadas en las instalaciones y en la nube, lo que dificulta que los equipos de análisis mezclen y combinen los datos. Le recomendamos almacenar los datos en contenedores según las características como el dominio, la geografía, los casos de uso empresariales, etc. Esta contenedorización aumenta la portabilidad entre varias plataformas y aplicaciones y permite un consumo más eficaz. Segmentar los datos en contenedores y exponerlos a través de las API es útil para escalar la arquitectura de los datos con mayor facilidad. Permite un flujo de datos híbrido e integral y ayuda a que las aplicaciones en las instalaciones y basadas en la nube funcionen sin problemas.

Excel

A medida que una arquitectura de análisis moderna evoluciona en una organización, es importante administrar ese cambio mediante la introducción de conceptos reutilizables. Estos conceptos aumentan la durabilidad y la adopción, además de que mantienen los costos bajo control. En las secciones siguientes, se analiza información sobre algunos de los conceptos que deben tenerse en cuenta.

Diseño de un marco configurable

Las organizaciones suelen crear modelos múltiples y complejos para satisfacer sus necesidades empresariales únicas. Para estos modelos es necesaria la creación de varias canalizaciones de datos y características diseñadas. Con el tiempo, esto genera una redundancia significativa y aumenta los costos operativos. Crear un marco que incorpore un conjunto de modelos base configurables y basados en parámetros reduce el tiempo de desarrollo y los costos operativos. El motor analítico puede implementar estos modelos configurables para proporcionar el resultado deseado.

Planificación de la creación de un motor analítico unificado

Los problemas empresariales son únicos y, a menudo, son necesarias tecnologías personalizadas para abordar los requisitos, lo que da como resultado varios motores analíticos en una organización. Diseñar y desarrollar una interfaz unificada de motor analítico basada en la IA que pueda admitir varios paradigmas de programación simplifica el uso y reduce los costos.

Definición de DataOps

La mayoría de los profesionales de datos dedican una cantidad considerable de tiempo a hacer operaciones de datos, como localizar los datos correctos, transformarlos, modelarlos, etc. Tener operaciones de datos ágiles (DataOps) puede mejorar en gran medida la arquitectura de datos al eliminar los silos de ingenieros de datos, científicos de datos, responsables de datos y analistas. DataOps mejora la comunicación entre los equipos, reduce la duración del ciclo y garantiza una calidad alta de los datos. Las arquitecturas de datos y análisis han sufrido transformaciones numerosas a lo largo del tiempo debido a las necesidades empresariales cambiantes y a los avances tecnológicos. Una organización debe esforzarse por desarrollar, implementar y mantener una arquitectura de datos y análisis que evolucione con el tiempo y ayude a su negocio.