1. Administración centrada en los datos

La administración de los datos consiste en garantizar que los datos que se utiliza en la formación, las pruebas y la inferencia se administren, protejan y validen de manera adecuada. Cuando se crean modelos a escala, los datos son el recurso principal que permite un rendimiento alto del modelo.

1.1 Repositorio de datos	Es necesario poder hacer un seguimiento de los datos y ver el punto de origen del repositorio de estos. Cuando se agregan o eliminan nuevos datos, el repositorio de datos registra esos cambios durante la point-in-time recuperación. El repositorio de datos debe tener en cuenta cómo se siguen y procesan los datos de las etiquetas y cómo se siguen los artefactos de datos intermedios.
1.2 Integración de diversos orígenes de datos	Según la aplicación, el entrenamiento del modelo podría requerir datos de muchos orígenes. Diseñar y mantener un manifiesto que informe a los profesionales del ML sobre los orígenes de datos disponibles y cómo se relacionan entre sí es fundamental para crear modelos.
1.3 Validación del esquema de datos	Para proporcionar datos a los modelos, es importante que los datos de entrenamiento sean homogéneos. Es posible que sean necesarias transformaciones u otros análisis exploratorios para los datos almacenados en soluciones de lagos de datos, como Amazon Simple Storage Service (Amazon S3), o en almacenes de datos de documentos.
1.4 Control de versiones y linaje de los datos	Al entrenar modelos que podrían utilizarse en producción, debe poder reproducir los resultados y disponer de una manera fiable de hacer los estudios de ablación para comprender mejor el rendimiento general del modelo. El seguimiento del estado de los datos de entrenamiento es fundamental para lograr esta capacidad de reproducción. Herramientas como el control de versiones de datos (DVC) pueden ser útiles en este sentido.
1.5 Flujo de trabajo de etiquetado	En los casos en que los datos etiquetados no estén disponibles al inicio del proyecto, la creación de los datos etiquetados suele ser un paso necesario. Herramientas como Amazon SageMaker Ground Truth requieren que los datos de entrada estén estructurados adecuadamente y requieren un trabajo de etiquetado definido y probado. Se debe utilizar una plantilla de etiquetadores internos o externos. Luego, los datos deben validarse mediante enfoques de etiquetado redundante o machine learning para identificar valores atípicos o errores en el conjunto de datos de entrenamiento.
1.6 Almacenamiento de características en línea y sin conexión	El sistema de ML tiene un almacén de características o un almacén centralizado para las características y los metadatos asociados, de modo que es posible volver a utilizar las características o las entradas del modelo. Puede crear un almacenamiento en línea o sin conexión. Utilice un almacenamiento en línea para los casos de uso de las inferencias en tiempo real y de baja latencia. Utilice un almacenamiento sin conexión para el entrenamiento y la inferencia en lotes.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

MLOps componentes de la lista de verificación

2. Experimentación