SageMaker Processing によるデータ変換ワークロード

SageMaker Processing は、SageMaker AI のフルマネージドインフラストラクチャで、データの前処理と後処理、特徴量エンジニアリング、モデル評価のタスクを実行する SageMaker AI の機能です。これらのタスクは、処理ジョブとして実行されます。以降では、SageMaker Processing に関する情報とリソースを説明します。

SageMaker Processing API を使用すると、データサイエンティストはスクリプトとノートブックを実行してデータセットを処理、変換、分析し、機械学習に備えることができます。SageMaker AI によって提供されるその他の重要な機械学習タスク (トレーニングやホスティングなど) と組み合わせると、Processing は、SageMaker AI に組み込まれたすべてのセキュリティおよびコンプライアンスのサポートを含む、フルマネージドの機械学習環境のメリットを提供します。柔軟性が高く、組み込みのデータ処理コンテナを使用したり、独自のコンテナでカスタム処理ロジックを使用し、ジョブを送信して SageMaker AI のマネージドインフラストラクチャで実行したりすることができます。

注記

処理ジョブをプログラムで作成するには、SageMaker AI がサポートする任意の言語で CreateProcessingJob API アクションを呼び出すか、 AWS CLIを使用します。この API アクションが選択した言語の関数にどのように変換されるかについては、「CreateProcessingJob and choose an SDK」の関連項目セクションを参照してください。Python ユーザーの場合の一例として、「SageMaker Python SDK」の「Amazon SageMaker Processing」セクションを参照してください。または、 AWS SDK for Python (Boto3)で create_processing_job の完全なリクエスト構文を参照してください。

下の図は、Amazon SageMaker AI が Processing ジョブをスピンアップする方法を示しています。Amazon SageMaker AI は、Amazon Simple Storage Service (Amazon S3) からスクリプトを取得し、データをコピーしてから、Processing コンテナをプルします。Processing ジョブの基盤となるのは、Amazon SageMaker AI のフルマネージドインフラストラクチャです。Processing ジョブを送信すると、SageMaker AI はコンピューティングインスタンスを起動し、入力データを処理および分析し、完了するとリソースを解放します。Processing ジョブの出力は、指定した Amazon S3 バケットに保存されます。

注記

入力データは Amazon S3 バケットに保存されている必要があります。または、Amazon Athena または Amazon Redshift を入力ソースとして使用することもできます。

ヒント

機械学習 (ML) のトレーニングや処理ジョブ全般の分散コンピューティングのベストプラクティスについては、「SageMaker AI による分散コンピューティングのベストプラクティス」を参照してください。

Amazon SageMaker Processing のサンプルノートブックを使う

データの前処理、モデル評価、またはその両方を実行する方法を示す 2 つのサンプル Jupyter ノートブックが用意されています。

scikit-learn スクリプトを実行して、SageMaker Python SDK for Processing を使ってデータの前処理やモデルトレーニングと評価を行う方法を示したサンプルノートブックについては、「scikit-learn 処理」を参照してください。このノートブックでは、独自のカスタムコンテナを使用して、Python ライブラリやその他の特定の依存関係で処理ワークロードを実行する方法についても説明します。

Amazon SageMaker Processing を使い、Spark を使って分散データを前処理する方法を示したサンプルノートブックについては、「分散処理 (Spark)」を参照してください。このノートブックでは、前処理されたデータセットで XGBoost を使用して回帰モデルをトレーニングする方法についても説明します。

SageMaker AI でこれらのサンプルを実行するために使用できる Jupyter ノートブックインスタンスを作成し、アクセスする方法については、「Amazon SageMaker ノートブックインスタンス」を参照してください。ノートブックインスタンスを作成して開いた後、[SageMaker AI サンプル] タブを選択して、すべての SageMaker AI サンプルのリストを表示します。ノートブックを開くには、その [Use (使用)] タブを選択し、[Create copy (コピーを作成)] を選択します。

CloudWatch のログとメトリクスを使って Amazon SageMaker Processing ジョブをモニタリングする

Processing ジョブをモニタリングするために、Amazon SageMaker Processing は Amazon CloudWatch のログとメトリクスを提供します。CloudWatch は、CPU、GPU、メモリ、GPU メモリ、ディスクメトリクス、イベントログを提供します。詳細については、「Amazon CloudWatch における Amazon SageMaker AI メトリクス」および「Amazon SageMaker AI 用 CloudWatch Logs」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Data Wrangler をシャットダウンする

Apache Spark を使用して Processing ジョブを実行する