

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Marco de la estrategia de datos
<a name="framework"></a>

El marco de la estrategia de datos que se presenta en esta guía se basa en los siguientes principios de la arquitectura moderna de análisis y datos:

1. Utilice una **capa de almacenamiento integrada, rentable y escalable** para que todos los productores y consumidores de datos tengan las capacidades técnicas necesarias para interactuar con los datos.

1. **La seguridad es obligatoria**. Aplique las reglas de privacidad de los datos, proteja los datos mediante cifrado, habilite la auditoría y garantice el cumplimiento automatizado.

1. **Gobierne los datos para compartirlos** con toda la empresa. Proporcione un catálogo de datos único y un glosario empresarial para que los usuarios puedan encontrar y usar los datos que necesitan.

1. Seleccione el **servicio adecuado para el trabajo adecuado**. Tenga en cuenta la funcionalidad, la escalabilidad, la latencia de los datos, el esfuerzo necesario para ejecutar el servicio, la resiliencia, la integración y la automatización cuando elija un componente.

1. Use **inteligencia artificial (IA) y machine learning (ML)**.

1. Proporcione **conocimientos básicos sobre datos** y herramientas con **abstracciones para empresarios**.

1. **Pruebe las hipótesis** de las iniciativas de datos y **mida los resultados.**

El marco de datos utiliza el enfoque de [trabajar a partir del cliente](https://docs.aws.amazon.com/whitepapers/latest/building-cloud-operating-model/step-1.-work-backwards-from-the-customer.html). Este método, que se utiliza en Amazon y AWS, sigue cinco pasos:

1. Entreviste a los usuarios de las áreas comerciales de la empresa. Seleccione los problemas y oportunidades empresariales que podrían tratarse mediante iniciativas de datos.

1. Defina los resultados empresariales que se esperan en las áreas empresariales.

1. Priorice las iniciativas que tengan el mayor impacto empresarial.

1. Identifique las capacidades técnicas y de uso compartido de datos para lograr resultados empresariales y agrúpelas en proyectos de apoyo.

1. Identifique los roles y las responsabilidades para permitir las iniciativas basadas en datos y analice la creación de equipos multidisciplinarios.

En las siguientes secciones se analizan las principales etapas de este proceso:
+ [Detección empresarial](business-discovery.md)
+ [Evaluación de la disponibilidad de los datos](data-availability.md)
+ [Evaluación técnica](technical-assessment.md)
+ [Alineación de las historias con los objetivos empresariales](align-stories-goals.md)

# Detección empresarial
<a name="business-discovery"></a>

Para llevar a cabo entrevistas empresariales de forma eficaz, es importante comprender los objetivos de la** **empresa que dependan de datos a un alto nivel. Por ejemplo, estos objetivos pueden incluir los siguientes:
+ Mejora de la agilidad empresarial
+ Activación de la innovación avanzada
+ Concentración en el cliente
+ Aumento de la cuota de mercado
+ Llegada a mercados globales
+ Lanzamiento de una nueva plataforma de clientes  

Una vez que se haya alineado con los objetivos de la empresa, debería hablar con los miembros del equipo de las áreas empresariales. Como mínimo, concéntrese en las áreas que afectan a los objetivos principales de la empresa, pero, si tiene la oportunidad, hable con los miembros del equipo de cada área empresarial.

En esta conversación de detección, debe conocer los objetivos de cada área empresarial o unidad de negocio, las métricas que utilizan para medir su área y cómo el uso de datos puede afectar a sus objetivos. A continuación se muestran algunos ejemplos de preguntas que podría hacer:
+ ¿Cuáles son los principales objetivos de la unidad empresarial?
+ ¿Cómo contribuirá la unidad empresarial al logro de los objetivos de la empresa?
+ ¿Cuáles son los proyectos clave de la unidad empresarial?
+ ¿Cómo depende cada proyecto de los datos?

Es importante obtener visibilidad de los proyectos clave, sus plazos, cómo dependen de los datos y cómo se alinean con los objetivos empresariales o los respaldan. Ejemplos de proyectos:
+ Mejoras en la experiencia del cliente a través de una interacción omnicanal coherente y la creación de conciencia sobre las últimas acciones y problemas de los clientes
+ Creación de un motor de recomendaciones basado en el comportamiento de los clientes para aumentar la tasa de conversión y la participación
+ En el caso de los productos financieros en línea, cálculo del riesgo más rápido para aprobar el crédito de los clientes, a fin de evitar demoras excesivas y perder al cliente a manos de otra institución financiera
+ Mayor precisión en las predicciones de ventas para reducir la pérdida de suministros
+ Reducción de las pérdidas por fraudes mediante la optimización de la detección de fraudes en tiempo real

# Evaluación de la disponibilidad de los datos para la empresa
<a name="data-availability"></a>

Utilice preguntas de seguimiento como las siguientes para comprender las deficiencias entre el estado actual de la disponibilidad de los datos y lo que la unidad empresarial quiere lograr:
+ ¿Cómo respaldan los datos sus proyectos y objetivos empresariales actuales?
+ ¿Es difícil obtener los datos correctos para usarlos y tomar decisiones?
+ ¿Qué tan automatizado está el proceso de obtención de datos? ¿Cuáles son los pasos manuales involucrados, si los hay?
+ Cuando los datos estén disponibles, ¿el equipo podrá entenderlos y trabajar con ellos, o tendrá que traducirlos al dominio de la empresa?
+ ¿Recibe datos puntualmente para respaldar sus decisiones empresariales?
  + ¿Cómo mejoraría la empresa si obtuviera los datos más rápido? Para fomentar las mejoras, ¿qué tan rápido deberían estar disponibles los datos?
+ ¿A los responsables de la toma de decisiones les faltan datos?
  + Si es así, ¿qué datos faltan?
  + ¿Cuál sería la ventaja de tener estos datos?
  + ¿Cómo afecta la falta de datos a los proyectos principales?
+ ¿Tiene algún problema relacionado con las normas de cumplimiento, como el Reglamento General de Protección de Datos (RGPD) u otras normas?
+ ¿La unidad empresarial tiene productos de datos disponibles que permitan a las aplicaciones tomar medidas?
+ ¿El área puede ofrecer modelos de machine learning para mejorar la empresa? Si no es así, ¿hay otras unidades empresariales que respaldan a su empresa en el área?
+ ¿Conoce algún dato interno de la empresa que actualmente no esté disponible para su unidad empresarial, pero que pueda respaldar sus proyectos o fomentar mejoras en el área?
  + ¿Cuál?
+ ¿Confía en la calidad de los datos disponibles en el área?
  + ¿El equipo lleva a cabo su propio proceso de limpieza de datos antes de utilizarlos?
  + ¿El equipo lleva a cabo su propio proceso de calidad antes de utilizar los datos?
  + Cuando el equipo trabaja en la disponibilidad de los datos y crea nuevos productos de datos para analizarlos, enriquecerlos y tener una visión conjunta, ¿puede compartir estos productos con otras unidades empresariales de la empresa?

# Evaluación técnica
<a name="technical-assessment"></a>

La evaluación técnica es importante porque proporciona un mapa de las capacidades técnicas actuales con las que cuenta la empresa. La evaluación abarca la gobernanza de datos, la ingesta de datos, la transformación de datos, el intercambio de datos, la plataforma de machine learning (ML), los procesos y la automatización. 

A continuación se muestran algunos ejemplos de preguntas que el equipo puede formular durante la evaluación técnica. Puede agregar preguntas en función de su contexto.

## Equipo de ingeniería de datos
<a name="data-engineering"></a>
+ ¿Cuáles son los desafíos actuales asociados a la ingesta de datos para el equipo? 
+ ¿Hay algún origen de datos externo o interno que el equipo necesite y que no esté disponible para su ingesta? ¿Por qué no está disponible?
+ ¿De qué tipos de orígenes ingiere datos (por ejemplo, bases de datos MySQL, API de Salesforce, archivos recibidos, datos de navegación de sitios web)?
+ ¿Cuánto tiempo necesita para ingerir datos de un nuevo origen de datos?
+ ¿Los procesos de ingesta de datos de un nuevo origen están automatizados?
+ ¿Qué tan fácil es para un equipo de desarrollo publicar datos transaccionales para su análisis desde la aplicación?
+ ¿Dispone de herramientas para cargas completas o incrementales (en lotes o microlotes) desde el origen de datos?
+ ¿Cuenta con herramientas de captura de datos de cambios (CDC) para cargas continuas desde las bases de datos?
+ ¿Dispone de opciones de transmisión de datos para la ingesta de datos?
+ ¿Cómo se lleva a cabo la transformación de datos para datos por lotes y en tiempo real?
+ ¿Cómo administra la orquestación de los flujos de trabajo de transformación de datos?
+ ¿Qué actividades lleva a cabo con más frecuencia (detección y catalogación de datos, ingesta de datos, transformación de datos, ayuda a los analistas de negocios, ayuda a los científicos de datos, gobernanza de datos, formación de equipos y usuarios)?
+ Cuando se crea un conjunto de datos, ¿cómo se clasifica para la privacidad de los datos? ¿Cómo se limpia para que sea útil para los consumidores internos?
+ ¿La administración y la gobernanza de datos están centralizadas o descentralizadas?
+ ¿Cómo se aplica la gobernanza de datos? ¿Cuenta con un proceso automatizado?
+ ¿Quién es el propietario y el administrador de los datos en cada fase de la canalización (ingesta, procesamiento, uso compartido y uso de datos)? ¿Existe un concepto de dominio de datos para determinar los propietarios y los administradores?
+ ¿Cuáles son los principales desafíos al compartir conjuntos de datos dentro de la organización con el control de acceso?
+ ¿Utiliza la infraestructura como código (IaC) para implementar y administrar canalizaciones de datos?
+ ¿Cuenta con una estrategia de lago de datos? 
  + ¿El lago de datos está distribuido o centralizado en toda la organización? 
+ ¿Cómo se organiza el catálogo de datos? ¿Es para toda la empresa o por área?
+ ¿Cuenta con un enfoque de lago de datos?
+ ¿Utiliza conceptos de malla de datos o tiene previsto usarlos?

Puede complementar estas preguntas con la [Lente de análisis de datos del Marco de AWS Well-Architected](https://docs.aws.amazon.com/wellarchitected/latest/analytics-lens/analytics-lens.html).

## Equipo de análisis empresarial
<a name="business-analysis"></a>
+ ¿Cómo describiría las siguientes características de los datos disponibles para su trabajo?
  + Limpieza
  + Calidad
  + Clasificación
  + Metadatos
  + Significado empresarial
+ ¿El equipo participa en las definiciones en el glosario empresarial de los conjuntos de datos del dominio?
+ ¿Cuál es el impacto de no contar con los datos que necesita para llevar a cabo el trabajo en el momento en que los necesita?
+ ¿Tiene algún ejemplo de situaciones en las que no tenga acceso a los datos o tarde demasiado tiempo en obtenerlos? ¿Cuánto tiempo necesita para obtener los datos que le hacen falta?
+ ¿Con qué frecuencia utiliza un conjunto de datos más pequeño del que necesitaba a causa de problemas técnicos o el tiempo de procesamiento?
+ ¿Cuenta con un entorno de pruebas con la escala y las herramientas que necesita?
+ ¿Puede llevar a cabo pruebas A/B para validar las hipótesis?
+ ¿Le falta alguna herramienta que necesite para llevar a cabo el trabajo?
  + ¿Qué tipo de herramienta?
  + ¿Por qué no está disponible?
+ ¿Hay alguna actividad importante que no tenga tiempo de llevar a cabo?
+ ¿Qué actividades consumen más tiempo?
+ ¿Cómo se actualizan los puntos de vista empresariales?
  + ¿Se programan y administran automáticamente?
+ ¿En qué escenarios necesitaría datos más actualizados que los que obtiene?
+ ¿Cómo comparte los análisis? ¿Qué herramientas y procesos utiliza para compartirlos?
+ ¿Suele crear nuevos productos de datos y ponerlos a disposición de otros equipos?
  + ¿Cuál es el proceso para compartir productos de datos con otras áreas empresariales o con toda la empresa?

## Equipos de ciencia de datos (para determinar la implementación del modelo)
<a name="data-science"></a>
+ ¿Cómo describiría las siguientes características de los datos disponibles para su trabajo?
  + Limpieza
  + Calidad
  + Clasificación
  + Metadatos
  + Significado
+ ¿Cuenta con herramientas automatizadas para entrenar, probar e implementar modelos de machine learning (ML)?
+ ¿Cuenta con opciones de tamaños de máquinas para llevar a cabo cada paso de la creación e implementación de un modelo de ML?
+ ¿Cómo se ponen en producción los modelos de ML?
+ ¿Qué pasos sigue para implementar un nuevo modelo? ¿Qué tan automatizados están?
+ ¿Cuenta con los componentes necesarios para entrenar, probar e implementar modelos de ML para datos por lotes y en tiempo real? 
+ ¿Puede usar y procesar un conjunto de datos que sea lo suficientemente grande como para representar los datos que necesita para crear el modelo?
+ ¿Cómo supervisa los modelos y toma medidas para volver a entrenarlos?
+ ¿Cómo se mide el impacto de los modelos en la empresa?
+ ¿Puede llevar a cabo pruebas A/B para validar las hipótesis de los equipos empresariales?

Para más preguntas, consulte [AWS Well-Architected Framework Machine Learning Lens](https://docs.aws.amazon.com/wellarchitected/latest/machine-learning-lens/machine-learning-lens.html).

# Alineación de las historias con los objetivos empresariales
<a name="align-stories-goals"></a>

Tras llevar a cabo las evaluaciones empresariales y técnicas, le recomendamos que cree un diagrama que incluya un conjunto de historias para cada nivel de madurez del uso de datos. Esta visualización facilita que el uso de datos se alinee con los objetivos empresariales de la empresa. Por ejemplo, un resultado empresarial de detección de fraudes prácticamente en tiempo real requiere un historial de acciones y capacidades prácticamente en tiempo real.  

Las historias son las capacidades técnicas, los mecanismos de intercambio de datos, las personas y los procesos necesarios para lograr los objetivos empresariales. Los resultados empresariales se muestran en la parte derecha del diagrama en función de las entrevistas de descubrimiento empresarial y se rellena el estado de cada historia en función de las evaluaciones técnicas. A continuación, puede seleccionar las historias en las que debería trabajar su empresa y crear una hoja de ruta.  

En el siguiente diagrama se muestra si cada historia es obligatoria, en función de los resultados empresariales. También se muestra el estado actual de cada historia en función de la información recopilada en las evaluaciones técnicas. El diagrama suele ir seguido de un informe que explica cada estado de forma detallada.

![\[Visualización de las historias de habilitación para cada fase de madurez de los datos\]](http://docs.aws.amazon.com/es_es/prescriptive-guidance/latest/strategy-aws-data/images/enablement-stories.png)


Se trabaja desde el lado derecho (*Resultados empresariales*) hacia el lado izquierdo para habilitar las historias. Por ejemplo, para habilitar una historia en la tercera etapa (*Información e informes*), debe habilitar sus dependencias en la segunda (*Lago de datos*) y en la primera (*Fundamento de datos*).

En función de la evaluación y los requisitos de los resultados empresariales, cada historia se clasifica como verde, amarilla, gris o roja.
+ El color verde significa que la historia está aplicada y se puede escalar para ofrecer los resultados empresariales. Por ejemplo, en el diagrama, la historia de ingesta de CDC de la primera etapa (*Fundamento de datos*) está en verde, lo que significa que la empresa cuenta con las herramientas y los procesos necesarios para llevar a cabo la historia para el origen de datos con el que cuenta. El objetivo empresarial de *Mejorar la experiencia del cliente* exige incorporar los datos pertinentes de los clientes y enriquecerlos con otros datos de la empresa a fin de comprender mejor al cliente y ofrecer una mayor personalización.
+ El color amarillo significa que existe la capacidad o el proceso, pero no es completamente funcional o compatible con la escala que requieren los resultados empresariales. Por ejemplo, en el diagrama, la historia de *Catálogo de datos centralizado* de la segunda etapa (*Lago de datos*) está en amarillo. Esto indica que la empresa tiene un catálogo de datos central, pero no está completo con los metadatos necesarios para las demás etapas o solo lo utilizan algunas áreas empresariales. Esta clasificación afecta a las capacidades de intercambio de datos en la siguiente etapa (*Información e informes*).
+ El color gris significa que la historia no es obligatoria.
+ El color rojo significa que la historia es obligatoria para los resultados empresariales, pero no se ha implementado. Por ejemplo, en el diagrama, la historia de *Intercambio de datos* en la etapa de *Información e informes* está en rojo. La creación de un modelo de machine learning integral para las recomendaciones de los clientes requiere agrupar conjuntos de datos, lo que requiere capacidades de intercambio de datos. Sin embargo, esta historia no se ha implementado. En este ejemplo, el intercambio de datos también requiere que las capacidades de la etapa de *Lago de datos* sean completamente funcionales, al menos para los conjuntos de datos que forman parte de los modelos, pero puede ver que la *Administración de datos* no se ha implementado.

La historia de *Privacidad, protección y cumplimiento de los datos* (en la etapa de *Lago de datos*) siempre es obligatoria y adquiere más relevancia a medida que los nuevos requisitos de protección de datos impulsan las normas de privacidad de los datos. Por ejemplo, el [Reglamento General de Protección de Datos (RGPD)](https://gdpr.eu/what-is-gdpr/) comenzó en los EE. UU. con la [Ley de Protección de Datos del Consumidor de Virginia (CDPA)](https://law.lis.virginia.gov/vacodefull/title59.1/chapter53/) y la [Ley de Protección al Consumidor de California (CCPA)](https://oag.ca.gov/privacy/ccpa) y ya se aplica en algunos países latinoamericanos, como la [Lei Geral de Proteção a Dados Pessoais (LGPD)](https://www.serpro.gov.br/privacidade-protecao-dados) de Brasil, [Ley de Protección de Datos](https://www.dataguidance.com/notes/mexico-data-protection-overview) de México, la Ley de Protección de Datos de Colombia, la [Ley 29 733](https://www.leyes.congreso.gob.pe/Documentos/Leyes/29733.pdf) de Perú y la [Ley de Protección de Datos Personales de Argentina](http://servicios.infoleg.gob.ar/infolegInternet/anexos/320000-324999/323901/norma.htm).