HyperPod チェックポイントレストレーニング機能 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HyperPod チェックポイントレストレーニング機能

チェックポイントレストレーニングのトレーニング機能については、以下のページを参照してください。

Amazon SageMaker HyperPod チェックポイントレストレーニングリポジトリ

HyperPod チェックポイントレストレーニングは、フレームワークレベルの最適化を通じて、大規模な分散トレーニング環境のクラスター障害からの復旧を加速します。これらの最適化は、強化された NCCL 初期化の改善、データロードの最適化、処理中およびチェックポイントレスリカバリコンポーネントを含むベースコンテナイメージを介して提供されます。HyperPod チェックポイントレストレーニングパッケージは、この基盤上に構築されています。

チェックポイントレストレーニングは、協調して実行される 3 つの最適化トラックを介して有効になります。

  • 通信初期化の改善 (NCCL と Gloo) - ランクピアとリングの情報を分散することで、通信のボトルネックを排除します (下の赤いボックス)。

  • データロードの最適化 - 再起動オペレーション中にデータの最初のバッチを処理するために必要な時間を短縮します (以下のオレンジ色のボックス)。

  • プログラム再起動のオーバーヘッド削減 - 再起動コストを最小限に抑え、正常なノードのプロセス復旧を通じてチェックポイントレス補充を有効にします (下の青と緑のボックス)。