1. Administración centrada en los datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

1. Administración centrada en los datos

La administración de los datos consiste en garantizar que los datos que se utiliza en la formación, las pruebas y la inferencia se administren, protejan y validen de manera adecuada. Cuando se crean modelos a escala, los datos son el recurso principal que permite un rendimiento alto del modelo.

1.1 Repositorio de datos

Es necesario poder hacer un seguimiento de los datos y ver el punto de origen del repositorio de estos. Cuando se agregan o eliminan nuevos datos, el repositorio de datos registra esos cambios durante la point-in-time recuperación. El repositorio de datos debe tener en cuenta cómo se siguen y procesan los datos de las etiquetas y cómo se siguen los artefactos de datos intermedios.

1.2 Integración de diversos orígenes de datos

Según la aplicación, el entrenamiento del modelo podría requerir datos de muchos orígenes. Diseñar y mantener un manifiesto que informe a los profesionales del ML sobre los orígenes de datos disponibles y cómo se relacionan entre sí es fundamental para crear modelos.

1.3 Validación del esquema de datos

Para proporcionar datos a los modelos, es importante que los datos de entrenamiento sean homogéneos. Es posible que sean necesarias transformaciones u otros análisis exploratorios para los datos almacenados en soluciones de lagos de datos, como Amazon Simple Storage Service (Amazon S3), o en almacenes de datos de documentos.

1.4 Control de versiones y linaje de los datos

Al entrenar modelos que podrían utilizarse en producción, debe poder reproducir los resultados y disponer de una manera fiable de hacer los estudios de ablación para comprender mejor el rendimiento general del modelo. El seguimiento del estado de los datos de entrenamiento es fundamental para lograr esta capacidad de reproducción. Herramientas como el control de versiones de datos (DVC) pueden ser útiles en este sentido.

1.5 Flujo de trabajo de etiquetado

En los casos en que los datos etiquetados no estén disponibles al inicio del proyecto, la creación de los datos etiquetados suele ser un paso necesario. Herramientas como Amazon SageMaker Ground Truth requieren que los datos de entrada estén estructurados adecuadamente y requieren un trabajo de etiquetado definido y probado. Se debe utilizar una plantilla de etiquetadores internos o externos. Luego, los datos deben validarse mediante enfoques de etiquetado redundante o machine learning para identificar valores atípicos o errores en el conjunto de datos de entrenamiento.

1.6 Almacenamiento de características en línea y sin conexión

El sistema de ML tiene un almacén de características o un almacén centralizado para las características y los metadatos asociados, de modo que es posible volver a utilizar las características o las entradas del modelo. Puede crear un almacenamiento en línea o sin conexión. Utilice un almacenamiento en línea para los casos de uso de las inferencias en tiempo real y de baja latencia. Utilice un almacenamiento sin conexión para el entrenamiento y la inferencia en lotes.