SageMaker 用のカスタム Docker コンテナイメージを作成し、AWS Step Functions のモデルトレーニングに使用する

Julia Bluszcz、Aubrey Oosthuizen、Mohan Gowda Purushothama、Neha Sharma、Mateusz Zaremba、Amazon Web Services

概要

このパターンは、Amazon SageMaker 用の Docker コンテナイメージを作成し、AWS Step Functions のトレーニングモデルに使用する方法を示しています。アルゴリズムをコンテナにパッケージ化することにより、プログラミング言語、フレームワーク、依存関係に関係なく、ほぼすべてのコードを SageMaker 環境で実行できます。

提供されている SageMaker ノートブックの例では、カスタム Docker コンテナイメージは Amazon Elastic Container Registry (Amazon ECR) に保存されます。次に、Step Functions は Amazon ECR に保存されているコンテナを使用して SageMaker の Python 処理スクリプトを実行します。次に、コンテナはモデルを Amazon Simple Storage Service (Amazon S3) にエクスポートします。

前提条件と制限

前提条件

アクティブなAWS アカウント
Amazon S3 アクセス許可を持つ SageMaker の AWS Identity and Access Management (IAM) ロール Amazon S3
Step Functions の IAM ロール
Python に精通
Amazon SageMaker Python SDK に精通していること
AWS Command Line Interface (AWS CLI) に精通していること
AWS SDK for Python (Boto3) に精通していること
Amazon ECR に精通している
Docker に精通していること

製品バージョン

AWS Step Functions データサイエンス SDK バージョン 2.3.0
Amazon SageMaker Python SDK バージョン 2.78.0

アーキテクチャ

次の図は、SageMaker 用の Docker コンテナイメージを作成し、それを Step Functions のトレーニングモデルに使用するためのワークフローの例を示しています。

SageMaker が Step Functions トレーニングモデルとして使用する Docker コンテナイメージを作成するワークフロー。

この図表は、次のワークフローを示しています：

データサイエンティストまたは DevOps エンジニアは、Amazon SageMaker ノートブックを使用してカスタム Docker コンテナイメージを作成します。
データサイエンティストまたは DevOps エンジニアは、Docker コンテナイメージをプライベートレジストリにおける Amazon ECR プライベートリポジトリに保存します。
データサイエンティストまたは DevOps エンジニアは、Docker コンテナで、Step Functions ワークフロー内の Python SageMaker 処理ジョブを実行します。

自動化とスケール

このパターンの SageMaker ノートブックの例としては、ml.m5.xlarge ノートブックインスタンスタイプを使用します。ユースケースに応じて、インスタンスタイプを変更することができます。SageMaker ノートブックインスタンスタイプの詳細については、「Amazon SageMaker の料金表」を参照してください。

ツール

「Amazon Elastic Container Registry (Amazon ECR)」は、セキュリティ、スケーラビリティ、信頼性を備えたマネージドコンテナイメージレジストリサービスです。
「Amazon SageMaker」はマネージド型の機械学習 (ML) サービスで、ML モデルの構築とトレーニングを行い、それらを本番稼働環境に対応したホスティング環境にデプロイします。
Amazon SageMaker Python SDK は、SageMaker で機械学習モデルをトレーニングおよびデプロイするためのオープンソースライブラリです。
AWS Step Functionsは、AWS Lambda関数と他のAWS サービスを組み合わせてビジネスクリティカルなアプリケーションを構築できるサーバーレスオーケストレーションサービスです。
AWS Step Functions Data Science Python SDK は、機械学習モデルを処理して公開する Step Functions ワークフローの作成に役立つオープンソースライブラリです。

エピック

タスク	説明	必要なスキル
Amazon ECR をセットアップし、新しいプライベートレジストリを作成します。	まだ Amazon ECR をセットアップしていない場合は、Amazon ECR ユーザーガイドの「Amazon ECR でセットアップ」における指示に従ってください。各 AWS アカウントには、デフォルトのプライベート Amazon ECR レジストリが提供されます。	DevOps エンジニア
Amazon ECR プライベートリポジトリを作成します。	Amazon ECR ユーザーガイドの「プライベートリポジトリの作成」における指示に従ってください。注記作成するリポジトリは、カスタム Docker コンテナイメージを保存する場所です。	DevOps エンジニア
SageMaker 処理ジョブの実行に必要な仕様を含む Docker ファイルを作成します。	Dockerfile を設定して、SageMaker 処理ジョブの実行に必要な仕様を含む Dockerfile を作成します。手順については、Amazon SageMaker 開発者ガイドの「独自のトレーニングコンテナの調整」を参照してください。 Dockerfiles の詳細については、Docker ドキュメントの Dockerfile リファレンスを参照してください。例：Jupyter Notebookのコードセルで［Dockerfile］を作成セル 1 `# Make docker folder !mkdir -p docker` セル 2 `%%writefile docker/Dockerfile FROM python:3.7-slim-buster RUN pip3 install pandas==0.25.3 scikit-learn==0.21.3 ENV PYTHONUNBUFFERED=TRUE ENTRYPOINT ["python3"]`	DevOps エンジニア
Docker コンテナイメージを構築し、Amazon ECR にプッシュします。	AWS CLI で `docker build` コマンドを実行して作成した Dockerfile でコンテナイメージを構築します。 `docker push` コマンドを実行して、コンテナイメージを Amazon ECR にプッシュします。詳細については、GitHub での独自のアルゴリズムコンテナの構築の「コンテナの構築と登録」を参照してください。 Docker イメージを構築して登録する Jupyter Notebookのコードセルの例重要次のセルを実行する前に、Dockerfile を作成し、というディレクトリに保存していることを確認してください`docker`。また、Amazon ECR リポジトリが作成されたことを確認し、最初のセルの `ecr_repository` 値をリポジトリの名前に置き換えてください。セル 1 `import boto3 tag = ':latest' account_id = boto3.client('sts').get_caller_identity().get('Account') region = boto3.Session().region_name ecr_repository = 'byoc' image_uri = '{}.dkr.ecr.{}.amazonaws.com/{}'.format(account_id, region, ecr_repository + tag)` セル 2 `# Build docker image !docker build -t $image_uri docker` セル 3 `# Authenticate to ECR !aws ecr get-login-password --region {region} \| docker login --username AWS --password-stdin {account_id}.dkr.ecr.{region}.amazonaws.com` セル 4 `# Push docker image !docker push $image_uri` 注記 `docker push` および `docker pull` コマンドを使用できるように、Docker クライアントをプライベートレジストリに対して認証する必要があります。これらのコマンドは、レジストリー内のリポジトリにイメージをプッシュし、またはレジストリーのリポジトリからイメージをプルします。	DevOps エンジニア

タスク説明必要なスキル

タスク	説明	必要なスキル
カスタム処理とモデルトレーニングロジックを含む Python スクリプトを作成します。	カスタム処理ロジックを書き込んでデータ処理スクリプトで実行します。その後、これを Python スクリプトとして、`training.py` という名前で保存します。詳細については、GitHub の「SageMaker スクリプトモードでモデルを自作」を参照してください。カスタム処理とモデルトレーニングロジックを含む Python スクリプトの例 `%%writefile training.py from numpy import empty import pandas as pd import os from sklearn import datasets, svm from joblib import dump, load if __name__ == '__main__': digits = datasets.load_digits() #create classifier object clf = svm.SVC(gamma=0.001, C=100.) #fit the model clf.fit(digits.data[:-1], digits.target[:-1]) #model output in binary format output_path = os.path.join('/opt/ml/processing/model', "model.joblib") dump(clf, output_path)`	データサイエンティスト
SageMaker 処理ジョブをステップの 1 つとして含むステップファンクションワークフローを作成します。	「AWS Step Functions データサイエンス SDK」をインストールしてインポートし、training.py ファイルを Amazon S3 にアップロードします。その後、「Amazon SageMaker Python SDK」でステップファンクションの処理ステップを定義します。重要 AWS アカウントで Step Functions の IAM 実行ロールが作成されていることを確認します。 Amazon S3 にアップロードする環境設定例とカスタムトレーニングスクリプト !pip install stepfunctions import boto3 import stepfunctions import sagemaker import datetime from stepfunctions import steps from stepfunctions.inputs import ExecutionInput from stepfunctions.steps import ( Chain ) from stepfunctions.workflow import Workflow from sagemaker.processing import ScriptProcessor, ProcessingInput, ProcessingOutput sagemaker_session = sagemaker.Session() bucket = sagemaker_session.default_bucket() role = sagemaker.get_execution_role() prefix = 'byoc-training-model' # See prerequisites section to create this role workflow_execution_role = f"arn:aws:iam::{account_id}:role/AmazonSageMaker-StepFunctionsWorkflowExecutionRole" execution_input = ExecutionInput( schema={ "PreprocessingJobName": str}) input_code = sagemaker_session.upload_data( "training.py", bucket=bucket, key_prefix="preprocessing.py", ) カスタム Amazon ECR イメージと Python スクリプトを使用する SageMaker 処理ステップ定義の例注記必ず `execution_input`パラメータを使用してジョブ名を指定します。パラメータの値は、ジョブを実行するたびに一意でなければなりません。また、［training.py］ファイルのコードは `input` パラメータとして `ProcessingStep` に渡されます。即ち、このコードはコンテナ内にコピーされます。`ProcessingInput` コードの宛先は、`container_entrypoint` 内の 2 番目の引数と同じです。 script_processor = ScriptProcessor(command=['python3'], image_uri=image_uri, role=role, instance_count=1, instance_type='ml.m5.xlarge') processing_step = steps.ProcessingStep( "training-step", processor=script_processor, job_name=execution_input["PreprocessingJobName"], inputs=[ ProcessingInput( source=input_code, destination="/opt/ml/processing/input/code", input_name="code", ), ], outputs=[ ProcessingOutput( source='/opt/ml/processing/model', destination="s3://{}/{}".format(bucket, prefix), output_name='byoc-example') ], container_entrypoint=["python3", "/opt/ml/processing/input/code/training.py"], ) SageMaker 処理ジョブを実行するStep Functions ワークフローの例注記このサンプルワークフローには、完全な Step Functions ワークフローではなく、SageMaker 処理ジョブステップのみが含まれます。完全なワークフローの例については、「AWS Step Functions データサイエンス SDK ドキュメント」の「SageMaker のノートブック例」を参照してください。 `workflow_graph = Chain([processing_step]) workflow = Workflow( name="ProcessingWorkflow", definition=workflow_graph, role=workflow_execution_role ) workflow.create() # Execute workflow execution = workflow.execute( inputs={ "PreprocessingJobName": str(datetime.datetime.now().strftime("%Y%m%d%H%M-%SS")), # Each pre processing job (SageMaker processing job) requires a unique name, } ) execution_output = execution.get_output(wait=True)`	データサイエンティスト

カスタム処理とモデルトレーニングロジックを含む Python スクリプトを作成します。

カスタム処理ロジックを書き込んでデータ処理スクリプトで実行します。その後、これを Python スクリプトとして、training.py という名前で保存します。

詳細については、GitHub の「SageMaker スクリプトモードでモデルを自作」を参照してください。

カスタム処理とモデルトレーニングロジックを含む Python スクリプトの例


%%writefile training.py
from numpy import empty
import pandas as pd
import os
from sklearn import datasets, svm
from joblib import dump, load


if __name__ == '__main__':
    digits = datasets.load_digits()
    #create classifier object
    clf = svm.SVC(gamma=0.001, C=100.)
    
    #fit the model
    clf.fit(digits.data[:-1], digits.target[:-1])
    
    #model output in binary format
    output_path = os.path.join('/opt/ml/processing/model', "model.joblib")
    dump(clf, output_path)

データサイエンティスト

SageMaker 処理ジョブをステップの 1 つとして含むステップファンクションワークフローを作成します。

「AWS Step Functions データサイエンス SDK」をインストールしてインポートし、training.py ファイルを Amazon S3 にアップロードします。その後、「Amazon SageMaker Python SDK」でステップファンクションの処理ステップを定義します。

重要

AWS アカウントで Step Functions の IAM 実行ロールが作成されていることを確認します。

Amazon S3 にアップロードする環境設定例とカスタムトレーニングスクリプト


!pip install stepfunctions

import boto3
import stepfunctions
import sagemaker
import datetime

from stepfunctions import steps
from stepfunctions.inputs import ExecutionInput
from stepfunctions.steps import (
    Chain
)
from stepfunctions.workflow import Workflow
from sagemaker.processing import ScriptProcessor, ProcessingInput, ProcessingOutput

sagemaker_session = sagemaker.Session()
bucket = sagemaker_session.default_bucket() 
role = sagemaker.get_execution_role()
prefix = 'byoc-training-model'

# See prerequisites section to create this role
workflow_execution_role = f"arn:aws:iam::{account_id}:role/AmazonSageMaker-StepFunctionsWorkflowExecutionRole"

execution_input = ExecutionInput(
    schema={
        "PreprocessingJobName": str})


input_code = sagemaker_session.upload_data(
    "training.py",
    bucket=bucket,
    key_prefix="preprocessing.py",
)

カスタム Amazon ECR イメージと Python スクリプトを使用する SageMaker 処理ステップ定義の例

注記

必ず execution_inputパラメータを使用してジョブ名を指定します。パラメータの値は、ジョブを実行するたびに一意でなければなりません。また、［training.py］ファイルのコードは input パラメータとして ProcessingStep に渡されます。即ち、このコードはコンテナ内にコピーされます。ProcessingInput コードの宛先は、container_entrypoint 内の 2 番目の引数と同じです。


script_processor = ScriptProcessor(command=['python3'],
                image_uri=image_uri,
                role=role,
                instance_count=1,
                instance_type='ml.m5.xlarge')


processing_step = steps.ProcessingStep(
    "training-step",
    processor=script_processor,
    job_name=execution_input["PreprocessingJobName"],
    inputs=[
        ProcessingInput(
            source=input_code,
            destination="/opt/ml/processing/input/code",
            input_name="code",
        ),
    ],
    outputs=[
        ProcessingOutput(
            source='/opt/ml/processing/model', 
            destination="s3://{}/{}".format(bucket, prefix), 
            output_name='byoc-example')
    ],
    container_entrypoint=["python3", "/opt/ml/processing/input/code/training.py"],
)

SageMaker 処理ジョブを実行するStep Functions ワークフローの例

注記

このサンプルワークフローには、完全な Step Functions ワークフローではなく、SageMaker 処理ジョブステップのみが含まれます。完全なワークフローの例については、「AWS Step Functions データサイエンス SDK ドキュメント」の「SageMaker のノートブック例」を参照してください。


workflow_graph = Chain([processing_step])

workflow = Workflow(
    name="ProcessingWorkflow",
    definition=workflow_graph,
    role=workflow_execution_role
)

workflow.create()
# Execute workflow
execution = workflow.execute(
    inputs={
        "PreprocessingJobName": str(datetime.datetime.now().strftime("%Y%m%d%H%M-%SS")),  # Each pre processing job (SageMaker processing job) requires a unique name,
    }
)
execution_output = execution.get_output(wait=True)

データサイエンティスト

SageMaker 用のカスタム Docker コンテナイメージを作成し、AWS Step Functions のモデルトレーニングに使用する

概要

前提条件と制限

アーキテクチャ

ツール

エピック

注記

重要

注記

重要

注記

注記

関連リソース