Ejecución de un trabajo de procesamiento con Apache Spark

Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Amazon SageMaker AI proporciona imágenes de Docker prediseñadas que incluyen Apache Spark y otras dependencias necesarias para ejecutar trabajos de procesamiento de datos distribuidos. A continuación se proporciona un ejemplo de cómo ejecutar un trabajo de Procesamiento de Amazon SageMaker mediante Apache Spark.

Con el Amazon SageMaker Python SDK, puede aplicar fácilmente transformaciones de datos y extraer características (ingeniería de características) mediante el marco Spark. Para obtener información sobre el uso de Amazon SageMaker Python SDK para ejecutar trabajos de procesamiento de Spark, consulte Procesamiento de datos con Spark en el Amazon SageMaker Python SDK.

En GitHub hay disponible un repositorio de código que contiene el código fuente y los Dockerfiles de las imágenes de Spark.

Puede usar la clase sagemaker.spark.PySparkProcessor o sagemaker.spark.SparkJarProcessor para ejecutar su aplicación Spark dentro de un trabajo de procesamiento. Tenga en cuenta que puede establecer MaxRuntimeInSeconds en un límite máximo de tiempo de ejecución de 5 días. Con respecto al tiempo de ejecución y al número de instancias utilizadas, las cargas de trabajo de simple spark muestran una relación casi lineal entre el número de instancias y el tiempo de finalización.

El siguiente ejemplo de código muestra cómo ejecutar un trabajo de procesamiento que invoca su guión de PySpark preprocess.py.


from sagemaker.spark.processing import PySparkProcessor

spark_processor = PySparkProcessor(
    base_job_name="spark-preprocessor",
    framework_version="2.4",
    role=role,
    instance_count=2,
    instance_type="ml.m5.xlarge",
    max_runtime_in_seconds=1200,
)

spark_processor.run(
    submit_app="preprocess.py",
    arguments=['s3_input_bucket', bucket,
               's3_input_key_prefix', input_prefix,
               's3_output_bucket', bucket,
               's3_output_key_prefix', output_prefix]
)

Para obtener más información, consulte el cuaderno de ejemplos de procesamiento de datos distribuido con Apache Spark y SageMaker Processing.

Si no utiliza el Amazon SageMaker AI Python SDK y una de sus clases de procesadores para recuperar las imágenes prediseñadas, puede recuperarlas usted mismo. Las imágenes de Docker prediseñadas de SageMaker se almacenan en Amazon Elastic Container Registry (Amazon ECR). Para ver una lista completa de las imágenes de Docker prediseñadas disponibles, consulte el documento de imágenes disponibles.

Para obtener más información sobre el uso de SageMaker Python SDK con contenedores de procesamiento, consulte Amazon SageMaker AI Python SDK.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Trabajos de procesamiento

Ejecución de un trabajo de procesamiento con scikit-learn