Amazon SageMaker AI で分散トレーニングを開始する

以下のページでは、Amazon SageMaker AI で分散トレーニングを始めるために必要な手順について説明します。既に分散トレーニングに慣れている場合は、以下のオプションからお好みの戦略やフレームワークに合わせて 1 つを選択して始めてください。分散型トレーニング全般について知りたい場合は、分散トレーニングの概念を参照してください。

SageMaker AI 分散トレーニングライブラリは SageMaker トレーニング環境向けに最適化されており、分散トレーニングジョブを SageMaker AI に適応させ、トレーニングの速度とスループットを向上させるのに役立ちます。ライブラリは、データ並列とモデル並列の両方のトレーニング戦略を提供します。ソフトウェアとハードウェアのテクノロジーを組み合わせて GPU 間およびノード間の通信を改善し、SageMaker AI のトレーニング機能は、トレーニングスクリプトにわずかなコード変更を加えるだけで済む組み込みオプションによって拡張されます。

始める前に

SageMaker Training は、単一インスタンスと複数インスタンスの分散トレーニングをサポートしているため、あらゆる規模のトレーニングを大規模に実行できます。SageMaker Python SDK の PyTorch や TensorFlow などのフレームワーク推定クラスを使用することをお勧めします。これらは、さまざまな分散型トレーニングオプションを備えたトレーニングジョブランチャーです。推定器オブジェクトを作成すると、オブジェクトは分散トレーニングインフラストラクチャをセットアップし、バックエンドで CreateTrainingJob API を実行し、現在のセッションが実行されているリージョンを検索し、 AWS 深層学習フレームワーク、分散トレーニングフレームワーク、EFA ドライバーなど、多数のライブラリがあらかじめパッケージ化された構築済みの深層学習コンテナの 1 つをプルします。FSx ファイルシステムをトレーニングインスタンスにマウントする場合は、VPC サブネットとセキュリティグループ ID を estimator に渡す必要があります。SageMaker AI で分散型トレーニングジョブを実行する前に、基本的なインフラストラクチャの設定に関する以下の一般的なガイダンスをお読みください。

アベイラビリティーゾーンとネットワークバックプレーン

複数のインスタンス (ノードとも呼ばれる) を使用する場合は、インスタンスを接続するネットワーク、インスタンスがトレーニングデータを読み取る方法、インスタンス間で情報を共有する方法を理解しておくことが重要です。例えば、分散データ並列トレーニングジョブを実行する場合、コンピューティングリソースの最適な使用とトレーニング速度の高速化を実現するには、AllReduce オペレーションを実行する計算クラスターのノード間の通信や、Amazon Simple Storage Service または Amazon FSx for Lustre 内のノードとデータストレージ間のデータ転送など、さまざまな要因が重要な役割を果たします。通信オーバーヘッドを減らすには、インスタンス、VPC サブネット、データストレージを同じと AWS リージョンアベイラビリティーゾーンに設定してください。

より高速なネットワークと高スループットのストレージを備えた GPU インスタンス

技術的には、どのインスタンスでも分散トレーニングに使用できます。大規模言語モデル (LLM) や拡散モデルなど、より高速なノード間通信を必要とする大規模モデルをトレーニングするためにマルチノード分散トレーニングジョブを実行する必要がある場合は、SageMaker AI がサポートする EFA 対応 GPU インスタンスを推奨します。特に、SageMaker AI で最もパフォーマンスの高い分散型トレーニングジョブを実現するには、NVIDIA A100 GPU を搭載した P4d および P4de インスタンスを推奨します。これらには、高スループット、低レイテンシーのローカルインスタンスストレージ、およびより高速なノード内ネットワークも搭載されています。データストレージには、トレーニングデータセットとモデルチェックポイントを高いスループットで保存できる Amazon FSx for Lustre をお勧めします。

SageMaker AI 分散データ並列処理ライブラリ (SMDDP) を使用する

SMDDP ライブラリは、 AWS ネットワークインフラストラクチャAllReduceと Amazon SageMaker AI ML インスタンストポロジに最適化されたの実装とAllGather集合通信オペレーションにより、ノード間の通信を改善します。SMDDP ライブラリは PyTorch ベースの分散トレーニングパッケージ (PyTorch Distributed Data Parallel (DDP)、PyTorch Fully Sharded Data Parallelism (FSDP)、DeepSpeed、Megatron-DeepSpeed) のバックエンドとして使用できます。次のコード例は、2 つの ml.p4d.24xlarge インスタンスで分散トレーニングジョブを開始する場合の PyTorch 推定器の設定方法を示しています。


from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...,
    instance_count=2,
    instance_type="ml.p4d.24xlarge",
    # Activate distributed training with SMDDP
    distribution={ "pytorchddp": { "enabled": True } }  # mpirun, activates SMDDP AllReduce OR AllGather
    # distribution={ "torch_distributed": { "enabled": True } }  # torchrun, activates SMDDP AllGather
    # distribution={ "smdistributed": { "dataparallel": { "enabled": True } } }  # mpirun, activates SMDDP AllReduce OR AllGather
)

トレーニングスクリプトを準備し、SageMaker AI で分散データ並列トレーニングジョブを開始する方法については、「SageMaker AI 分散データ並列処理ライブラリを使用して分散トレーニングを実行する」を参照してください。

SageMaker AI モデル並列処理ライブラリ (SMP) を使用する

SageMaker AI は SMP ライブラリを提供し、シャーディングデータ並列処理、パイプライン、テンソル並列処理、オプティマイザステートシャーディングなど、さまざまな分散トレーニング技術をサポートしています。SMP ライブラリが提供するものの詳細については、SageMaker モデル並列処理ライブラリの主要機能を参照してください。

SageMaker AI のモデル並列処理ライブラリを使用するには、SageMaker AI フレームワーク推定器の distribution パラメータを設定します。サポートされているフレームワーク推定器は PyTorch と TensorFlow です。次のコード例は、2 つの ml.p4d.24xlarge インスタンスでモデル並列処理ライブラリを使用して分散トレーニング用のフレームワーク推定器を構築する方法を示しています。


from sagemaker.framework import Framework

distribution={
    "smdistributed": {
        "modelparallel": {
            "enabled":True,
            "parameters": {
                ...   # enter parameter key-value pairs here
            }
        },
    },
    "mpi": {
        "enabled" : True,
        ...           # enter parameter key-value pairs here
    }
}

estimator = Framework(
    ...,
    instance_count=2,
    instance_type="ml.p4d.24xlarge",
    distribution=distribution
)

トレーニングスクリプトの適合、estimator クラスでの分散パラメータの設定、および分散トレーニングジョブを起動する方法については、「SageMaker AI's model parallelism library」(「SageMaker Python SDK ドキュメント」の「Distributed Training APIs」も参照) を参照してください。

オープンソースの分散型トレーニングフレームワークを使用する

SageMaker AI は、バックエンドでの mpirun と torchrun を操作する以下のオプションもサポートしています。

SageMaker AI の PyTorch 分散データパラレル (DDP) を mpirun バックエンドで使用するには、PyTorch 推定器に distribution={"pytorchddp": {"enabled": True}} を追加してください。詳細については、SageMaker Python SDK ドキュメントの「Distributed PyTorch Training」と SageMaker AI PyTorch Estimator の distribution の引数も参照してください。

注記
このオプションは、PyTorch 1.12.0 以降で使用できます。
```
from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...,
    instance_count=2,
    instance_type="ml.p4d.24xlarge",
    distribution={"pytorchddp": {"enabled": True}}  # runs mpirun in the backend
)
```
SageMaker AI は、P3 や P4 などの GPU ベースの Amazon EC2 インスタンスでの分散トレーニング用の PyTorch torchrun ランチャーと、AWS Trainium デバイスを搭載した Trn1 をサポートしています。

SageMaker AI の PyTorch 分散データパラレル (DDP) を torchrun バックエンドで使用するには、PyTorch 推定器に distribution={"torch_distributed": {"enabled": True}} を追加してください。

注記
このオプションは、PyTorch 1.13.0 以降で使用できます。

次のコードスニペットは、SageMaker AI PyTorch Estimator を構築して、torch_distributed 分散オプションを使用して 2 つの ml.p4d.24xlarge インスタンスで分散トレーニングを実行する例を示しています。
```
from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...,
    instance_count=2,
    instance_type="ml.p4d.24xlarge",
    distribution={"torch_distributed": {"enabled": True}}   # runs torchrun in the backend
)
```
詳細については、SageMaker Python SDK ドキュメントの「Distributed PyTorch Training」と SageMaker AI PyTorch Estimatorの distribution の引数も参照してください。

Trn1 での分散トレーニングに関する注意事項

Trn1 インスタンスは最大 16 台の Trainium デバイスで構成され、各 Trainium デバイスは 2 つの NeuronCores で構成されます。 AWS Trainium デバイスの仕様については、AWS Neuron ドキュメントの Trainium アーキテクチャを参照してください。

Trainium 搭載インスタンスでトレーニングを行うには、SageMaker AI PyTorch 推定クラスの instance_type 引数に Trn1 インスタンスコードを ml.trn1.* を文字列で指定するだけで済みます。使用可能な Trn1 インスタンスタイプを見つけるには、「AWS Neuron ドキュメント」の「AWS Trn1 Architecture」を参照してください。

注記
Amazon EC2 Trn1 インスタンスでの SageMaker Training は現在、 v1.11.0 以降の AWS Deep Learning Containers for PyTorch Neuron の PyTorch フレームワークでのみ使用できます。PyTorch Neuron のサポートされているすべてのバージョンのリストについては、AWS Deep Learning Containers GitHub リポジトリの「Neuron Containers」を参照してください。

SageMaker Python SDK を使用して Trn1 インスタンスでトレーニングジョブを起動すると、SageMaker AI は AWS Deep Learning Containers が提供する Neuron Containers から適切なコンテナを自動的に取得して実行します。Neuron Containers には、トレーニングジョブを SageMaker トレーニングプラットフォームと Amazon EC2 Trn1 インスタンスに簡単に適応させることができるように、トレーニング環境設定と依存関係があらかじめパッケージ化されています。

注記
SageMaker AI を使用して Trn1 インスタンスで PyTorch トレーニングジョブを実行するには、xla バックエンドでプロセスグループを初期化し、PyTorch /XLA を使用するようにトレーニングスクリプトを変更する必要があります。XLA 導入プロセスをサポートするために、 AWS Neuron SDK は XLA を使用して PyTorch オペレーションを Trainium 指示に変換する PyTorch Neuron を提供します。トレーニングスクリプトを変更する方法については、「AWS Neuron ドキュメント」の「Developer Guide for Training with PyTorch Neuron (torch-neuronx)」を参照してください。

詳細については、SageMaker Python SDK ドキュメントの「Distributed Training with PyTorch Neuron on Trn1 instances」と SageMaker AI PyTorch Estimator の distribution の引数も参照してください。
SageMaker AI で MPI を使用するには、distribution={"mpi": {"enabled": True}} を推定器に追加してください。MPI ディストリビューションオプションは、MXNet、PyTorch、TensorFlow の各フレームワークで使用できます。
SageMaker AI でパラメータサーバーを使用するには、distribution={"parameter_server": {"enabled": True}} を推定器に追加してください。パラメータサーバーオプションは、MXNet、PyTorch、TensorFlow の各フレームワークで使用できます。
ヒント
フレームワークごとの MPI およびパラメータサーバーオプションの使用方法の詳細については、「SageMaker Python SDK ドキュメント」への次のリンクを参照してください。
- MXNet Distributed Training と SageMaker AI MXNet Estimator の distribution 引数
- PyTorch Distributed Training と SageMaker AI PyTorch Estimator の distribution 引数
- TensorFlow Distributed Training と SageMaker AI TensorFlow Estimator の distribution 引数

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

分散トレーニング

分散トレーニングの戦略

Amazon SageMaker AI で分散トレーニングを開始する

始める前に

アベイラビリティーゾーンとネットワークバックプレーン

より高速なネットワークと高スループットのストレージを備えた GPU インスタンス

注記

注記

注記

注記

ヒント