

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker AI 分散データ並列処理ライブラリを使用して分散トレーニングを実行する
<a name="data-parallel"></a>

SageMaker AI 分散データ並列処理 (SMDDP) ライブラリは、 AWS インフラストラクチャに最適化された集合通信オペレーションの実装を提供することで、深層学習モデルの SageMaker トレーニング機能をほぼ線形のスケーリング効率で拡張します。

大規模言語モデル (LLM) や拡散モデルなどの大規模機械学習 (ML) モデルを膨大なトレーニングデータセットでトレーニングする際、機械学習の実務者はアクセラレーターのクラスターや分散トレーニング手法を活用して、トレーニング時間を短縮したり、各 GPU メモリに収まりきらないモデルのメモリ制約を解消したりします。通常は、単一のインスタンス上で複数のアクセラレーターを使い始め、ワークロード要件の増加に応じてインスタンスのクラスターにスケールアップしていきます。クラスターのサイズが大きくなるにつれて、複数のノード間の通信オーバーヘッドも大きくなり、全体的な計算性能が低下します。

このようなオーバーヘッドやメモリの問題に対処するために、SMDDP ライブラリには以下の機能があります。
+ SMDDP ライブラリは、 AWS ネットワークインフラストラクチャと Amazon SageMaker AI ML インスタンストポロジのトレーニングジョブを最適化します。
+ SMDDP ライブラリは、 の実装`AllReduce`と、 AWS インフラストラクチャ用に最適化された`AllGather`集合通信オペレーションにより、ノード間の通信を改善します。

SMDDP ライブラリの機能の詳細については、「[SageMaker AI 分散データ並列処理ライブラリの概要](data-parallel-intro.md)」を参照してください。

SageMaker AI が提供するモデル並列戦略によるトレーニングの詳細については、「[(アーカイブ済み) SageMaker モデル並列処理ライブラリ v1.x](model-parallel.md)」も参照してください。

**Topics**
+ [SageMaker AI 分散データ並列処理ライブラリの概要](data-parallel-intro.md)
+ [サポートされているフレームワーク、 AWS リージョンおよびインスタンスタイプ](distributed-data-parallel-support.md)
+ [SageMaker AI 分散データ並列処理ライブラリを使用した分散トレーニング](data-parallel-modify-sdp.md)
+ [Amazon SageMaker AI データ並列処理ライブラリの例](distributed-data-parallel-v2-examples.md)
+ [SageMaker AI 分散データ並列処理ライブラリの設定のヒント](data-parallel-config.md)
+ [Amazon SageMaker AI 分散データ並列処理ライブラリに関するよくある質問](data-parallel-faq.md)
+ [Amazon SageMaker AI の分散トレーニングのトラブルシューティング](distributed-troubleshooting-data-parallel.md)
+ [SageMaker AI データ並列処理ライブラリのリリースノート](data-parallel-release-notes.md)