本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援的架構、AWS 區域 和執行個體類型
使用 SageMaker AI 分散式資料平行化 (SMDDP) 程式庫之前,請檢查支援的 ML 架構和執行個體類型,以及您的 AWS 帳戶和 AWS 區域 是否有足夠的配額。
支援的架構
下表顯示 SageMaker AI 和 SMDDP 支援的深度學習架構及其版本。SMDDP 程式庫可在 SageMaker AI 架構容器
注意
若要檢查 SMDDP 程式庫的最新更新和版本備註,請參閱SageMaker AI 資料平行化程式庫版本備註。
PyTorch
| PyTorch 版本 | SMDDP 程式庫版本 | 預先安裝 SMDDP 的 SageMaker AI 架構容器映像檔 | 預先安裝 SMDDP 的 SMP Docker 映像檔 | 二進位檔案的網址** |
|---|---|---|---|---|
| v2.3.1 | smdistributed-dataparallel==v2.5.0 |
無 | 658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl |
| v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
目前無法使用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
| v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
| 2.1.0 版 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
| v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
| v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
| V1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
| v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
| v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
| v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** 二進位檔案的 URL 用於在自訂容器中安裝 SMDDP 程式庫。如需更多詳細資訊,請參閱 使用 SageMaker AI 分散式資料平行程式庫建立您自己的 Docker 容器。
注意
SMDDP 程式庫可在 SageMaker AI 架構容器
注意
SMDDP 程式庫 v1.4.0 和更新版本可做為 PyTorch 分散式 (torch.distributed) 資料平行化 (torch.parallel.DistributedDataParallel) 的後端。根據這項變更,下列適用於 PyTorch 分散式套件的小型分散式 API
-
smdistributed.dataparallel.torch.distributed已棄用。請改用 torch.distributed套件。 -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel已棄用。請改用 torch.nn.parallel.DistributedDataParallelAPI。
如果您需要使用舊版本程式庫 (v1.3.0 或更新版本),請參閱 SageMaker AI Python SDK 文件中的封存 SageMaker AI 分散式資料平行化文件
PyTorch Lightning
SMDDP 程式庫可用於以下適用於 PyTorch 的 SageMaker AI 架構容器和 SMP Docker 容器中的 PyTorch Lightning。
PyTorch Lightning v2
| PyTorch Lightning 版本 | PyTorch 版本 | SMDDP 程式庫版本 | 預先安裝 SMDDP 的 SageMaker AI 架構容器映像檔 | 預先安裝 SMDDP 的 SMP Docker 映像檔 | 二進位檔案的網址** |
|---|---|---|---|---|---|
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
目前無法使用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch Lightning v1
| PyTorch Lightning 版本 | PyTorch 版本 | SMDDP 程式庫版本 | 預先安裝 SMDDP 的 SageMaker AI 架構容器映像檔 | 二進位檔案的網址** |
|---|---|---|---|---|
|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** 二進位檔案的 URL 用於在自訂容器中安裝 SMDDP 程式庫。如需更多詳細資訊,請參閱 使用 SageMaker AI 分散式資料平行程式庫建立您自己的 Docker 容器。
注意
PyTorch Lightning 及公用程式程式庫 (例如 Lightning Bolts) 未預先安裝於 PyTorch DLC。在步驟 2 建構 SageMaker AI PyTorch 估算器並提交訓練任務請求時,您必須提供 requirements.txt,以在 SageMaker AI PyTorch 訓練容器中安裝 pytorch-lightning 與 lightning-bolts。
# requirements.txt pytorch-lightning lightning-bolts
如需指定來源目錄以放置 requirements.txt 檔案和訓練指令碼以及工作提交的更多相關資訊,請參閱 Amazon SageMaker AI Python SDK 文件中的使用第三方程式庫
Hugging Face 轉換器
Hugging Face 的 AWS 深度學習容器使用適用於 PyTorch 和 TensorFlow 的 SageMaker 訓練容器做為其基礎映像。若要查詢 Hugging Face 轉換器程式庫版本及配對的 PyTorch 和 TensorFlow 版本,請參閱最新的 Hugging Face 容器
TensorFlow (已棄用)
重要
SMDDP 程式庫已停止對 TensorFlow 的支援,且不再於 v2.11.0 之後的 TensorFlow DLC 中提供。下表列出已安裝 SMDDP 程式庫的舊版 TensorFlow DLC。
| TensorFlow 版本 | SMDDP 程式庫版本 |
|---|---|
| 2.9.1、2.10.1、2.11.0 |
smdistributed-dataparallel==v1.4.1
|
| 2.8.3 |
smdistributed-dataparallel==v1.3.0
|
AWS 區域
SMDDP 程式庫適用於所有 AWS SageMaker AI 深度學習容器
支援的執行個體類型
SMDDP 程式庫需要下列其中一種執行個體類型。
| 執行個體類型 |
|---|
ml.p3dn.24xlarge* |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
提示
若要在已啟用 EFA 的執行個體類型上正確執行分散式訓練,您應該透過設定 VPC 的安全群組來啟用執行個體之間的流量,以允許進出安全群組本身的所有傳入和傳出流量。若要了解如何設定安全群組規則,請參閱《Amazon EC2 使用者指南》中的步驟 1:準備啟用 EFA 的安全群組。
重要
* SMDDP 程式庫已停止支援在 P3 執行個體上最佳化其集體通訊操作。雖然您仍然可以在 ml.p3dn.24xlarge 執行個體上利用 SMDDP 最佳化的 AllReduce 集體,但將不再提供進一步的開發支援來增強此執行個體類型的效能。請注意,SMDDP 最佳化的 AllGather 集體僅適用於 P4 執行個體。
如需執行個體類型的空間,請參閱 Amazon EC2 執行個體類型頁面
如果您遇到類似下列內容的錯誤訊息,請按照請求 SageMaker AI 資源服務配額增加的指示進行操作。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.