Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ejecución de un trabajo de procesamiento con Apache Spark
Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Amazon SageMaker AI proporciona imágenes de Docker prediseñadas que incluyen Apache Spark y otras dependencias necesarias para ejecutar trabajos de procesamiento de datos distribuidos. A continuación se proporciona un ejemplo de cómo ejecutar un trabajo de Procesamiento de Amazon SageMaker mediante Apache Spark.
Con el Amazon SageMaker Python SDK
En GitHub
Puede usar la clase sagemaker.spark.PySparkProcessorsagemaker.spark.SparkJarProcessor
El siguiente ejemplo de código muestra cómo ejecutar un trabajo de procesamiento que invoca su guión de PySpark preprocess.py.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Para obtener más información, consulte el cuaderno de ejemplos
Si no utiliza el Amazon SageMaker AI Python SDK
Para obtener más información sobre el uso de SageMaker Python SDK con contenedores de procesamiento, consulte Amazon SageMaker AI Python SDK