本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker AI 資料平行化程式庫版本備註
請參閱下列版本備註,以追蹤 SageMaker AI 分散式資料平行化 (SMDDP) 程式庫的最新更新。
SageMaker AI 分散式資料平行化程式庫 v2.5.0
日期:2024 年 10 月 17 日
新功能
-
新增對 PyTorch v2.4.1 與 CUDA v12.1 的支援。
整合到由 SageMaker AI 模型平行化 (SMP) 程式庫發佈的 Docker 容器
此版本的 SMDDP 程式庫會遷移至 SageMaker 模型平行化程式庫 v2.6.0。
658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121
如需可使用 SMP Docker 映像檔的區域,請參閱 AWS 區域。
此版本的二進位檔案
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
SageMaker AI 分散式資料平行化程式庫 v2.3.0
日期:2024 年 6 月 11 日
新功能
-
新增對 PyTorch v2.3.0 搭配 CUDA v12.1 和 Python v3.11 的支援。
-
新增支援 PyTorch Lightning v2.2.5。這已整合至 PyTorch v2.3.0 的 SageMaker AI 架構容器中。
-
在匯入期間新增執行個體類型驗證,以防止在不支援的執行個體類型上載入 SMDDP 程式庫。如需與 SMDDP 程式庫相容的執行個體類型清單,請參閱 支援的架構、AWS 區域 和執行個體類型。
整合到 SageMaker AI 架構容器
此版本的 SMDDP 程式庫會遷移至下列 SageMaker AI 架構容器
-
PyTorch v2.3.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker
如需 SMDDP 程式庫和預先建置容器的完整版本清單,請參閱 支援的架構、AWS 區域 和執行個體類型。
此版本的二進位檔案
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
其他變更
-
SMDDP 程式庫 v2.2.0 已整合到 PyTorch v2.2.0 的 SageMaker AI 架構容器中。
SageMaker AI 分散式資料平行化程式庫 v2.2.0
日期:2024 年 3 月 4 日
新功能
-
新增對 PyTorch v2.2.0 與 CUDA v12.1 的支援。
整合到由 SageMaker AI 模型平行化 (SMP) 程式庫發佈的 Docker 容器
此版本的 SMDDP 程式庫會遷移至 SageMaker 模型平行化程式庫 v2.2.0。
658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
如需可使用 SMP Docker 映像檔的區域,請參閱 AWS 區域。
此版本的二進位檔案
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
SageMaker AI 分散式資料平行化程式庫 v2.1.0
日期:2024 年 3 月 1 日
新功能
-
新增對 PyTorch v2.1.0 與 CUDA v12.1 的支援。
錯誤修正
-
修正SMDDP v2.0.1 中的 CPU 記憶體流失問題。
整合到 SageMaker AI 架構容器
此版本的 SMDDP 程式庫已通過基準測試,並遷移至下列 SageMaker AI 架構容器
-
PyTorch v2.1.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker
整合到由 SageMaker AI 模型平行化 (SMP) 程式庫發佈的 Docker 容器
此版本的 SMDDP 程式庫會遷移至 SageMaker 模型平行化程式庫 v2.1.0。
658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
如需可使用 SMP Docker 映像檔的區域,請參閱 AWS 區域。
此版本的二進位檔案
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
SageMaker AI 分散式資料平行化程式庫 v2.0.1
日期:2023 年 12 月 7 日
新功能
-
新增了針對 AWS 運算資源和網路基礎設施最佳化之
AllGather集體操作的全新 SMDDP 實作。如需詳細資訊,請參閱 SMDDP AllGather 集體操作。 -
SMDDP
AllGather集體操作與 PyTorch FSDP 和 DeepSpeed 相容。如需詳細資訊,請參閱 在 PyTorch 訓練指令碼中使用 SMDDP 程式庫。 -
新增支援 PyTorch v2.0.1
已知問題
-
在 DDP 模式下使用 SMDDP
AllReduce進行訓練時,由於 CPU 記憶體逐漸增加,導致 CPU 記憶體洩漏問題。
整合到 SageMaker AI 架構容器
此版本的 SMDDP 程式庫已通過基準測試,並遷移至下列 SageMaker AI 架構容器
-
PyTorch v2.0.1
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker
此版本的二進位檔案
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
其他變更
-
從此版本開始,本《Amazon SageMaker AI 開發人員指南》已完整提供 SMDDP 程式庫的完整文件。為了支援《Amazon SageMaker AI 開發人員指南》中有關 SMDDP v2 的完整開發人員指南,SageMaker AI Python SDK 文件中有關 SMDDP v1.x 的附加參考
文件不再受支援。如果您仍然需要 SMP v1.x 文件,請參閱 SageMaker Python SDK v2.212.0 文件 中的下列文件快照。