Cargas de trabajo de transformación de datos con Procesamiento de SageMaker - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cargas de trabajo de transformación de datos con Procesamiento de SageMaker

La característica Procesamiento de SageMaker AI hace referencia a las capacidades de SageMaker para ejecutar tareas de procesamiento previo y posterior de datos, ingeniería de características y evaluación de modelos en la infraestructura totalmente administrada de SageMaker AI. Estas tareas se ejecutan como trabajos de procesamiento. A continuación se proporcionan información y recursos para aprender sobre la característica Procesamiento de SageMaker.

Al utilizar la API de Procesamiento de SageMaker, los científicos de datos pueden ejecutar scripts y cuadernos para procesar, transformar y analizar conjuntos de datos con el fin de prepararlos para el machine learning. Cuando se combina con otras tareas críticas de machine learning proporcionadas por SageMaker AI, como el entrenamiento y el alojamiento, Procesamiento ofrece las ventajas de un entorno de machine learning totalmente administrado, incluido todo el soporte de seguridad y conformidad integrado en SageMaker AI. Tiene la flexibilidad de utilizar los contenedores de procesamiento de datos integrados o de traer sus propios contenedores para una lógica de procesamiento personalizada y de enviar trabajos para que se ejecuten en la infraestructura administrada de SageMaker AI.

nota

Para crear un trabajo de procesamiento mediante programación, puede llamar a la acción de la API CreateProcessingJob en cualquier lenguaje admitido por SageMaker AI o utilizar la AWS CLI. Para obtener más información sobre cómo se traduce esta acción de la API en una función en el lenguaje que prefiera, consulte la sección See Also de CreateProcessingJob y seleccione un SDK. Como ejemplo, en el caso de usuarios de Python, consulte la sección Procesamiento de Amazon SageMaker del SageMaker Python SDK. También puede consultar la sintaxis de solicitud completa de create_processing_job en AWS SDK para Python (Boto3).

El diagrama anterior muestra cómo Amazon SageMaker AI genera un trabajo de procesamiento. Amazon SageMaker AI toma su guion, copia sus datos desde Amazon Simple Storage Service (Amazon S3), y luego extrae un contenedor de procesamiento. Amazon SageMaker AI administra completamente la infraestructura subyacente de un trabajo de procesamiento. Después de enviar un trabajo de procesamiento, SageMaker AI inicia las instancias de computación, procesa y analiza los datos de entrada y libera los recursos al finalizar. El resultado del trabajo de procesamiento se almacena en el bucket de Amazon S3 que especifique.

nota

Los datos de entrada tienen que estar almacenados en un bucket de Amazon S3. Como alternativa, también puede utilizar Amazon Athena o Amazon Redshift como orígenes de entrada.

Ejecución de un trabajo de procesamiento.
sugerencia

Para obtener información sobre las prácticas recomendadas para la computación distribuida de los trabajos de entrenamiento y procesamiento de machine learning (ML) en general, consulte Computación distribuida con las prácticas recomendadas de SageMaker AI.

Utilice cuadernos de ejemplo de procesamiento de Amazon SageMaker

Proporcionamos dos cuadernos de Jupyter de ejemplos que muestran cómo realizar el preprocesamiento de datos, la evaluación de modelos o ambas tareas.

Para ver un cuaderno de muestras con ejemplos de cómo ejecutar scripts scikit-learn para efectuar el preprocesamiento de datos y el entrenamiento y evaluación de modelos con el SDK de SageMaker Python para procesamiento, consulte Procesamiento de scikit-learn. Este cuaderno también muestra cómo usar su propio contenedor personalizado para ejecutar cargas de trabajo de procesamiento con sus bibliotecas de Python y otras dependencias específicas.

Para ver un cuadernos de ejemplo con ejemplos de cómo utilizar el Procesamiento de Amazon SageMaker para efectuar preprocesamiento de datos distribuido con Spark, consulte Procesamiento distribuido (Spark). Este cuaderno también muestra cómo entrenar un modelo de regresión usando XGBoost en el conjunto de datos preprocesado.

Para obtener instrucciones acerca de cómo crear y obtener acceso a instancias de cuaderno de Jupyter que puede utilizar para ejecutar estos ejemplos en SageMaker AI, consulte Instancias de Amazon SageMaker Notebook. Después de crear y abrir una instancia de cuaderno, seleccione la pestaña Ejemplos de SageMaker AI para ver una lista de todas las muestras de SageMaker AI. Para abrir un cuaderno, elija su pestaña Usar y elija Crear copia.

Supervise los trabajos de procesamiento de Amazon Sagemaker con Registros y métricas de CloudWatch

El Procesamiento de Amazon SageMaker proporciona registros y métricas de Amazon CloudWatch para supervisar los trabajos de procesamiento. CloudWatch proporciona métricas de CPU, GPU, memoria, memoria de GPU y disco, así como registro de eventos. Para obtener más información, consulte Métricas de Amazon SageMaker AI en Amazon CloudWatch y CloudWatch Registros para Amazon SageMaker AI.