SageMaker AI 分散データ並列処理ライブラリを使用して分散トレーニングを実行する - Amazon SageMaker AI

SageMaker AI 分散データ並列処理ライブラリを使用して分散トレーニングを実行する

SageMaker AI 分散データ並列処理 (SMDDP) ライブラリは、AWS インフラストラクチャ向けに最適化された集合通信演算の実装を提供することで、深層学習モデルの SageMaker トレーニング機能を拡張し、ほぼ線形のスケーリング効率を実現します。

大規模言語モデル (LLM) や拡散モデルなどの大規模機械学習 (ML) モデルを膨大なトレーニングデータセットでトレーニングする際、機械学習の実務者はアクセラレーターのクラスターや分散トレーニング手法を活用して、トレーニング時間を短縮したり、各 GPU メモリに収まりきらないモデルのメモリ制約を解消したりします。通常は、単一のインスタンス上で複数のアクセラレーターを使い始め、ワークロード要件の増加に応じてインスタンスのクラスターにスケールアップしていきます。クラスターのサイズが大きくなるにつれて、複数のノード間の通信オーバーヘッドも大きくなり、全体的な計算性能が低下します。

このようなオーバーヘッドやメモリの問題に対処するために、SMDDP ライブラリには以下の機能があります。

  • AWS ネットワークインフラストラクチャと Amazon SageMaker AI ML インスタンストポロジー向けにトレーニングジョブを最適化します。

  • AWS インフラストラクチャ向けに最適化された AllReduce および AllGather 集合通信演算の実装を通じて、ノード間の通信を改善します。

SMDDP ライブラリの機能の詳細については、「SageMaker AI 分散データ並列処理ライブラリの概要」を参照してください。

SageMaker AI が提供するモデル並列戦略によるトレーニングの詳細については、「(アーカイブ済み) SageMaker モデル並列処理ライブラリ v1.x」も参照してください。