

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# HyperPod 無檢查點訓練功能
<a name="sagemaker-eks-checkpointless-features"></a>

請參閱以下頁面，了解無檢查點訓練中的訓練功能。

**Topics**
+ [Amazon SageMaker HyperPod 無檢查點訓練儲存庫](#sagemaker-eks-checkpointless-repositories)
+ [集體通訊初始化改進](sagemaker-eks-checkpointless-features-communication.md)
+ [記憶體映射的資料載入器](sagemaker-eks-checkpointless-features-mmap.md)
+ [處理中復原和無檢查點訓練](sagemaker-eks-checkpointless-in-process-recovery.md)

## Amazon SageMaker HyperPod 無檢查點訓練儲存庫
<a name="sagemaker-eks-checkpointless-repositories"></a>

[ HyperPod 無檢查點訓練](https://github.com/aws/sagemaker-hyperpod-checkpointless-training#)透過架構層級最佳化，加速從大規模分散式訓練環境中的叢集故障復原。這些最佳化是透過基本容器映像傳遞，其中包含增強型 NCCL 初始化改進、資料載入最佳化，以及處理中和無檢查點復原元件。HyperPod 無檢查點訓練套件建置在此基礎上。

無檢查點訓練是透過三個在音樂會中執行的最佳化軌道來啟用：
+ **通訊初始化改進 (NCCL 和 Gloo)** - 透過分散排名對等和環資訊 （下面的紅色方塊） 來消除通訊瓶頸。
+ **資料載入最佳化** - 減少在重新啟動操作期間提供第一批資料所需的時間 （下面的橘色方塊）。
+ **減少程式重新啟動額外**負荷 - 將重新啟動成本降至最低，並在運作狀態良好的節點 （下方為藍色和綠色方塊） 透過程序復原啟用無檢查點補充。

![\[alt text not found\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/hyperpod/hyperpod-checkpointless-optimization-tracks.png)
