As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Executar um Trabalho de Processamento com o Apache Spark
O Apache Spark é um mecanismo de analytics unificado para processamento de dados em grande escala. O Amazon SageMaker AI fornece imagens do Docker predefinidas que incluem o Apache Spark e outras dependências necessárias para executar trabalhos de processamento de dados distribuídos. Veja a seguir um exemplo de como executar um trabalho do Amazon SageMaker Processing usando o Apache Spark.
Com o Amazon SageMaker Python SDK
Você pode usar a sagemaker.spark.PySparkProcessorsagemaker.spark.SparkJarProcessor
Os exemplos de código a seguir mostram como executar um trabalho de processamento que chama o script do PySpark preprocess.py.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Se não estiver usando o Amazon SageMaker AI Python SDK
Para saber mais sobre como usar o SageMaker AI Python SDK com contêineres de processamento, consulte Amazon SageMaker AI Python SDK