Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
1. Administración centrada en los datos
La administración de los datos consiste en garantizar que los datos que se utiliza en la formación, las pruebas y la inferencia se administren, protejan y validen de manera adecuada. Cuando se crean modelos a escala, los datos son el recurso principal que permite un rendimiento alto del modelo.
1.1 Repositorio de datos |
Es necesario poder hacer un seguimiento de los datos y ver el punto de origen del repositorio de estos. Cuando se agregan o eliminan nuevos datos, el repositorio de datos registra esos cambios durante la point-in-time recuperación. El repositorio de datos debe tener en cuenta cómo se siguen y procesan los datos de las etiquetas y cómo se siguen los artefactos de datos intermedios. |
1.2 Integración de diversos orígenes de datos |
Según la aplicación, el entrenamiento del modelo podría requerir datos de muchos orígenes. Diseñar y mantener un manifiesto que informe a los profesionales del ML sobre los orígenes de datos disponibles y cómo se relacionan entre sí es fundamental para crear modelos. |
1.3 Validación del esquema de datos |
Para proporcionar datos a los modelos, es importante que los datos de entrenamiento sean homogéneos. Es posible que sean necesarias transformaciones u otros análisis exploratorios para los datos almacenados en soluciones de lagos de datos, como Amazon Simple Storage Service (Amazon S3), o en almacenes de datos de documentos. |
1.4 Control de versiones y linaje de los datos |
Al entrenar modelos que podrían utilizarse en producción, debe poder reproducir los resultados y disponer de una manera fiable de hacer los estudios de ablación |
1.5 Flujo de trabajo de etiquetado |
En los casos en que los datos etiquetados no estén disponibles al inicio del proyecto, la creación de los datos etiquetados suele ser un paso necesario. Herramientas como Amazon SageMaker Ground Truth requieren que los datos de entrada estén estructurados adecuadamente y requieren un trabajo de etiquetado definido y probado. Se debe utilizar una plantilla de etiquetadores internos o externos. Luego, los datos deben validarse mediante enfoques de etiquetado redundante o machine learning para identificar valores atípicos o errores en el conjunto de datos de entrenamiento. |
1.6 Almacenamiento de características en línea y sin conexión |
El sistema de ML tiene un almacén de características o un almacén centralizado para las características y los metadatos asociados, de modo que es posible volver a utilizar las características o las entradas del modelo. Puede crear un almacenamiento en línea o sin conexión. Utilice un almacenamiento en línea para los casos de uso de las inferencias en tiempo real y de baja latencia. Utilice un almacenamiento sin conexión para el entrenamiento y la inferencia en lotes. |