翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Apache Spark を使用して Processing ジョブを実行する
Apache Spark は、大規模データ処理のための統合分析エンジンです。Amazon SageMaker AI は、Apache Spark と分散データ処理ジョブの実行に必要なその他の依存関係を含む構築済みの Docker イメージを提供します。Apache Spark を使用して Amazon SageMaker Processing ジョブを実行する方法の例を次に示します。
Amazon SageMaker Python SDK
Spark イメージのソースコードと Dockerfile を含むコードリポジトリは、GitHub
sagemaker.spark.PySparkProcessorsagemaker.spark.SparkJarProcessor
次のコード例は、PySpark スクリプト preprocess.py を呼び出す処理ジョブを実行する方法を示しています。
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
詳細については、Apache Spark と SageMaker Processing を使った分散データ処理のサンプルノートブック
Amazon SageMaker AI Python SDK
Processing コンテナでの SageMaker Python SDK の使用の詳細については、Amazon SageMaker AI Python SDK