Apache Spark を使用して Processing ジョブを実行する

Apache Spark は、大規模データ処理のための統合分析エンジンです。Amazon SageMaker AI には Apache Spark や、分散データ処理ジョブの実行に必要なその他の依存関係が含まれた構築済みの Docker イメージが用意されています。Apache Spark を使用して Amazon SageMaker Processing ジョブを実行する方法の例を次に示します。

Amazon SageMaker Python SDK を使うと、Spark フレームワークを使って簡単にデータ変換を適用し、特徴を抽出 (特徴量エンジニアリング) できます。SageMaker Python SDK を使って Spark の処理ジョブを実行する方法については、Amazon SageMaker Python SDK の「Spark を使ってデータを処理する」を参照してください。

Spark イメージのソースコードと Dockerfile を含むコードリポジトリは、GitHub にあります。

sagemaker.spark.PySparkProcessor クラスまたは sagemaker.spark.SparkJarProcessor クラスを使用して、処理ジョブ内で Spark アプリケーションを実行できます。MaxRuntimeInSeconds に設定できる最長のランタイム制限は 5 日間です。単純な Spark ワークロードでは、実行時間と使用インスタンス数に関して、インスタンス数と完了までの時間にほぼ直線的な関係が見られます。

次のコード例は、PySpark スクリプト preprocess.py を呼び出す処理ジョブを実行する方法を示しています。


from sagemaker.spark.processing import PySparkProcessor

spark_processor = PySparkProcessor(
    base_job_name="spark-preprocessor",
    framework_version="2.4",
    role=role,
    instance_count=2,
    instance_type="ml.m5.xlarge",
    max_runtime_in_seconds=1200,
)

spark_processor.run(
    submit_app="preprocess.py",
    arguments=['s3_input_bucket', bucket,
               's3_input_key_prefix', input_prefix,
               's3_output_bucket', bucket,
               's3_output_key_prefix', output_prefix]
)

詳細については、Apache Spark と SageMaker Processing を使った分散データ処理のサンプルノートブックを参照してください。

Amazon SageMaker AI Python SDK とその Processor クラスのいずれかを使って構築済みのイメージを取得していない場合は、自分で取得できます。SageMaker の構築済み Docker イメージは、Amazon Elastic Container Registry (Amazon ECR) に保存されます。利用可能な事前構築済み Docker イメージの完全なリストについては、使用できるイメージのドキュメントを参照してください。

Processing コンテナで SageMaker Python SDK を使う方法の詳細については、Amazon SageMaker AI Python SDK を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

処理ジョブ

scikit-learn で Processing ジョブを実行する