翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker Python SDK で PyTorch フレームワーク推定器を使用する
SageMaker AI フレームワーク推定器、PyTorchdistribution引数を追加することで、分散トレーニングを開始できますTensorFlow
- PyTorch
-
PyTorch 分散トレーニングを開始するには、次のランチャーオプションを使用できます。
-
pytorchddp– このオプションはmpirun、SageMaker AI で PyTorch 分散トレーニングを実行するために必要な環境変数を実行して設定します。このオプションを使用するには、次のディクショナリをdistributionパラメータに渡してください。{ "pytorchddp": { "enabled": True } } -
torch_distributed– このオプションはtorchrun、SageMaker AI で PyTorch 分散トレーニングを実行するために必要な環境変数を実行して設定します。このオプションを使用するには、次のディクショナリをdistributionパラメータに渡してください。{ "torch_distributed": { "enabled": True } } -
smdistributed– このオプションは でも実行されますmpirunがsmddprun、SageMaker AI で PyTorch 分散トレーニングを実行するために必要な環境変数を設定する でも実行されます。{ "smdistributed": { "dataparallel": { "enabled": True } } }
NCCL の
AllGatherを SMDDP のAllGatherに置き換えることにした場合は、3 つのオプションすべてを使用できます。ユースケースに合ったオプションを選択してください。NCCL の
AllReduceを SMDDP のAllReduceに置き換えることにした場合は、mpirunベースのオプションのいずれか (smdistributedまたはpytorchddp)を選択する必要があります。次のように MPI オプションを追加することもできます。{ "pytorchddp": { "enabled": True, "custom_mpi_options": "-verbose -x NCCL_DEBUG=VERSION" } }{ "smdistributed": { "dataparallel": { "enabled": True, "custom_mpi_options": "-verbose -x NCCL_DEBUG=VERSION" } } }次のコード例は、分散トレーニングのオプションを指定した PyTorch 推定器の基本構造を示しています。
from sagemaker.pytorch import PyTorch pt_estimator = PyTorch( base_job_name="training_job_name_prefix", source_dir="subdirectory-to-your-code", entry_point="adapted-training-script.py", role="SageMakerRole", py_version="py310", framework_version="2.0.1", # For running a multi-node distributed training job, specify a value greater than 1 # Example: 2,3,4,..8 instance_count=2, # Instance types supported by the SageMaker AI data parallel library: # ml.p4d.24xlarge, ml.p4de.24xlarge instance_type="ml.p4d.24xlarge", # Activate distributed training with SMDDP distribution={ "pytorchddp": { "enabled": True } } # mpirun, activates SMDDP AllReduce OR AllGather # distribution={ "torch_distributed": { "enabled": True } } # torchrun, activates SMDDP AllGather # distribution={ "smdistributed": { "dataparallel": { "enabled": True } } } # mpirun, activates SMDDP AllReduce OR AllGather ) pt_estimator.fit("s3://bucket/path/to/training/data")注記
PyTorch Lightning や Lightning Bolts などのユーティリティライブラリは、SageMaker AI PyTorch DLCs にプリインストールされていません。次の
requirements.txtファイルを作成し、トレーニングスクリプトを保存するソースディレクトリに保存します。# requirements.txt pytorch-lightning lightning-bolts例えば、ツリー構造のディレクトリは次のようになります。
├──pytorch_training_launcher_jupyter_notebook.ipynb└── sub-folder-for-your-code ├──adapted-training-script.py└──requirements.txtトレーニングスクリプトとジョブ送信とともに
requirements.txtファイルを配置するソースディレクトリを指定する方法の詳細については、Amazon SageMaker AI Python SDK ドキュメントの「サードパーティーライブラリの使用」を参照してください。 SMDDP 集合演算を有効にし、適切な分散トレーニングランチャーオプションを使用するための考慮事項
-
SMDDP の
AllReduceと SMDDP のAllGatherは、現時点では相互互換性がありません。 -
SMDDP の
AllReduceは、mpirunベースのランチャーであるsmdistributedまたはpytorchddpを使用する場合はデフォルトで有効になり、NCCL のAllGatherが使用されます。 -
SMDDP の
AllGatherはtorch_distributedランチャーの使用時にデフォルトで有効になり、AllReduceは NCCL にフォールバックされます。 -
SMDDP の
AllGatherは、mpirunベースのランチャーを使用する場合も、次のように追加の環境変数を設定することで有効化できます。export SMDATAPARALLEL_OPTIMIZE_SDP=true
-
- TensorFlow
-
重要
SMDDP ライブラリは TensorFlow のサポートを終了し、v2.11.0 より新しい TensorFlow の DLC では使用できなくなりました。SMDDP ライブラリがインストールされている以前の TensorFlow DLC を調べるには、「TensorFlow (非推奨)」を参照してください。
from sagemaker.tensorflow import TensorFlow tf_estimator = TensorFlow( base_job_name = "training_job_name_prefix", entry_point="", role="adapted-training-script.pySageMakerRole", framework_version="2.11.0", py_version="py38", # For running a multi-node distributed training job, specify a value greater than 1 # Example: 2,3,4,..8 instance_count=2, # Instance types supported by the SageMaker AI data parallel library: #ml.p4d.24xlarge,ml.p3dn.24xlarge, andml.p3.16xlargeinstance_type="ml.p3.16xlarge", # Training using the SageMaker AI data parallel distributed training strategy distribution={ "smdistributed": { "dataparallel": { "enabled": True } } } ) tf_estimator.fit("s3://bucket/path/to/training/data")