翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
HyperPod チェックポイントレストレーニング機能
チェックポイントレストレーニングのトレーニング機能については、以下のページを参照してください。
トピック
Amazon SageMaker HyperPod チェックポイントレストレーニングリポジトリ
HyperPod チェックポイントレストレーニング
チェックポイントレストレーニングは、協調して実行される 3 つの最適化トラックを介して有効になります。
-
通信初期化の改善 (NCCL と Gloo) - ランクピアとリングの情報を分散することで、通信のボトルネックを排除します (下の赤いボックス)。
-
データロードの最適化 - 再起動オペレーション中にデータの最初のバッチを処理するために必要な時間を短縮します (以下のオレンジ色のボックス)。
-
プログラム再起動のオーバーヘッド削減 - 再起動コストを最小限に抑え、正常なノードのプロセス復旧を通じてチェックポイントレス補充を有効にします (下の青と緑のボックス)。