本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS 深度學習 AMI (Amazon Linux 2)
提示
建議使用 PyTorch 或 TensorFlow 等單一架構的客戶使用此處提及的單一架構 DLAMIs
如需入門說明,請參閱 DLAMI 入門。
AMI 名稱格式
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 版本 ${XX.X}
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 版本 ${XX.X}
支援的 EC2 執行個體
請參閱 DLAMI 的重要變更。
深度學習搭配 OSS Nvidia 驅動程式支援 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5
Deep Learning with Proprietary Nvidia Driver 支援 G3 (不支援 G3.16x)、P3, P3dn
AMI 包含下列項目:
支援服務 AWS :Amazon EC2
作業系統:Amazon Linux 2
運算架構:x86
Conda 環境架構和 python 版本:
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2):
python3:Python 3.10
tensorflow2_p310:TensorFlow 2.16、Python 3.10
pytorch_p310:PyTorch 2.2、Python 3.10
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2):
python3:Python 3.10
tensorflow2_p310:TensorFlow 2.16、Python 3.10
pytorch_p310:PyTorch 2.2、Python 3.10
NVIDIA 驅動程式:
OSS Nvidia 驅動程式:550.163.01
專屬 Nvidia 驅動程式:550.163.01
NVIDIA CUDA12.1-12.4 堆疊:
CUDA、NCCL 和 cuDDN 安裝路徑:/usr/local/cuda-xx.x/
-
預設 CUDA:12.1
PATH /usr/local/cuda 指向 CUDA12.1
已更新下列 env vars:
LD_LIBRARY_PATH 具有 /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH 讓 /usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/
對於任何不同的 CUDA 版本,請相應地更新 LD_LIBRARY_PATH。
CUDA 12.1-12.4 的編譯 NCCL 版本:2.22.3
NCCL 測試位置:
all_reduce、all_gather 和 reduce_scatter:/usr/local/cuda-xx.x/efa/test-cuda-xx.x/
若要執行 NCCL 測試,LD_LIBRARY_PATH 需要通過以下更新。
常見 PATHs已新增至 LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
對於任何不同的 CUDA 版本,請相應地更新 LD_LIBRARY_PATH。
EFA 安裝程式:1.38.0
GDRCopy:2.4
AWS OFI NCCL:1.13.2
系統位置:/usr/local/cuda-xx.x/efa
這會新增以執行位於 /usr/local/cuda-xx.x/efa/test-cuda-xx.x/ 的 NCCL 測試
此外,PyTorch 套件隨附動態連結的 AWS OFI NCCL 外掛程式做為 conda 套件 aws-ofi-nccl-dlc 套件,而 PyTorch 將使用該套件,而不是系統 AWS OFI NCCL。
NCCL 測試位置:/usr/local/cuda-xx.x/efa/test-cuda-xx.x/
AWS CLI v2 位於 /usr/local/bin/aws2,AWS CLI v1 位於 /usr/local/bin/aws
EBS 磁碟區類型:gp3
使用 SSM 參數查詢 AMI-ID (範例區域為 us-east-1):
OSS Nvidia 驅動程式:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
專屬 Nvidia 驅動程式:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
使用 AWSCLI 查詢 AMI-ID (範例區域為 us-east-1):
OSS Nvidia 驅動程式:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
專屬 Nvidia 驅動程式:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
注意
從 1.37 到 1.38 的 EFA 更新 ( 發行2025-02-05)
-
EFA 現在綁定 AWS OFI NCCL 外掛程式,現在可在 /opt/amazon/ofi-nccl 中找到,而不是原始 /opt/aws-ofi-nccl/。如果更新 LD_LIBRARY_PATH 變數,請確保您正確修改 OFI NCCL 位置。
Neuron Conda 環境移除
-
2024 年 7 月 18 日之後發行的 Deep Learning 專屬 Nvidia 驅動程式 AMIs 將在 PyTorch 和 TensorFlow 沒有神經元 conda 環境的情況下運送。請改用 DLAMIs 版本備註上的 Neuron DLAMI,以利用神經環境。
稽核套件移除
-
2024 年 3 月 26 日至 2024 年 4 月 12 日 ((2024-03-26) 之間發行的 DLAMI (2024-04-12在沒有稽核套件的情況下運送。如果您需要此特定套件來滿足您的記錄和監控需求,請將您的工作流程遷移至最新的 DLAMI,以便使用已安裝稽核套件的工作流程。
Horovod
-
Horovod 會從 DLAMI 上目前的 pytorch_p310 和 tensorflow2_p310 conda 環境中移除。客戶將能夠遵循 horovod 準則來安裝 horovod
程式庫,並在 DLAMIs上安裝它們以進行分散式訓練任務。
發行日期:2025-04-22
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 81.2 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 81.2 版
Updated
已將 Nvidia 驅動程式從 550.144.03 版升級至 550.163.01,以解決 2025 年 4 月 NVIDIA GPU 顯示驅動程式安全公告
中存在的 CVEs
發行日期:2025-02-17
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 80.6 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 80.4 版
Updated
-
將 NVIDIA Container Toolkit 從 1.17.3 版更新至 1.17.4 版
如需詳細資訊,請參閱此處的版本備註頁面:https://https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
在 Container Toolkit 1.17.4 版中,CUDA Compat 程式庫的掛載現已停用。為了確保與容器工作流程上的多個 CUDA 版本相容,請確保您更新 LD_LIBRARY_PATH 以包含 CUDA 相容性程式庫,如「如果您使用 CUDA 相容性層」教學課程 - https://https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat 所示
已移除
已移除 NVIDIA CUDA 工具組
提供的使用者空間程式庫 cuobj 和 nvdisasm,以解決 2025 年 2 月 18 日 NVIDIA CUDA Toolkit 安全公告 中存在的 CVEs
發行日期:2025-02-05
AMI 名稱
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 80.2 版
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 80.4 版
Updated
-
已將 EFA 版本從 1.37.0 升級至 1.38.0
EFA 現在綁定 AWS OFI NCCL 外掛程式,現在可在 /opt/amazon/ofi-nccl 中找到,而不是原始 /opt/aws-ofi-nccl/。如果更新 LD_LIBRARY_PATH 變數,請確保您正確修改 OFI NCCL 位置。
版本日期:2025-01-15
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 80.3 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 80.1 版
Updated
已將 Nvidia 驅動程式從 550.127.05 版升級至 550.144.03,以解決 2025 年 1 月 NVIDIA GPU 顯示驅動程式安全公告
中存在的 CVEs
發行日期:2024-12-09
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 80.1 版
深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 79.9 版
Updated
已將 Nvidia Container Toolkit 從 1.17.0 版升級至 1.17.3 版
版本日期:2024-11-11
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 79.9 版
深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 79.7 版
Updated
已將 Nvidia Container Toolkit 從 1.16.2 版升級至 1.17.0,以解決安全性漏洞 CVE-2024-0134
。
版本日期:2024-10-22
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 79.6 版
深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 79.6 版
Updated
已將 Nvidia 驅動程式從 550.90.07 版升級至 550.127.05,以解決 2024 年 10 月 NVIDIA GPU 顯示安全公告
中存在的 CVEs
發行日期:2024-10-03
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 79.3 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 79.3 版
Updated
已將 Nvidia Container Toolkit 從 1.16.1 版升級至 1.16.2 版,以解決安全性漏洞 CVE-2024-0133
。
版本日期:2024-07-18
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 78.6 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 78.7 版
Updated
從 Deep Learning Proprietary Nvidia Driver AMI 移除 aws_neuron_pytorch_p38 和 aws_neuron_tensorflow_p38 conda 環境。
從深度學習專屬 Nvidia 驅動程式 AMI 移除 Inf1 執行個體系列支援。
發行日期:2024-06-06
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 78.5 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 78.5 版
Updated
將 Nvidia 驅動程式版本從 535.183.01 更新至 535.161.08
發行日期:2024-05-17
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 78.1 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 78.1 版
Updated
在 pytorch_p310 環境中,將 torchserve
從 v0.8.2 更新至 v0.11.0。 https://github.com/pytorch/serve/releases/tag/v0.11.0
版本日期:2024-05-07
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 78.0 版
深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 78.0 版
Updated
在 tensorflow2_p310 環境中,TensorFlow 版本從 2.15 更新至 2.16。
將 EFA 版本從 1.30 版更新至 1.32 版
將 AWS OFI NCCL 外掛程式從 1.7.4 版更新至 1.9.1 版
-
將 Nvidia 容器工具組從 1.13.5 版更新至 1.15.0
版 注意:1.15.0 版不包含 nvidia-container-runtime 和 nvidia-docker2 套件。建議遵循 Nvidia 容器工具組文件,直接使用 nvidia-container-toolkit 套件。 https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/sample-workload.html
已新增
新增 CUDA12.3 堆疊與 CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7
已移除
已移除 CUDA11.7、存在於 /usr/local/cuda-11.7 和 /usr/local/cuda-12.0 的 CUDA12.0 堆疊usr/local/cuda-12
移除了 nvidia-docker2 套件及其命令 nvidia-docker,作為 Nvidia 容器工具組從 1.13.5 更新至 1.15.0
的一部分,其中不包含 nvidia-container-runtime 和 nvidia-docker2 套件。
發行日期:2024-04-04
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 77.0 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 77.0 版
Updated
PyTorch 版本從 2.1 更新至 2.2。
對於 OSS Nvidia 驅動程式 DLAMIs,新增了 G6 和 Gr6 EC2 執行個體支援。如需詳細資訊,請參閱 EC2 執行個體選擇頁面。
發行日期:2024-03-29
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 76.8 版
深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 76.9 版
Updated
在私有和 OSS Nvidia 驅動程式 DLAMIs 中,將 Nvidia 驅動程式從 535.161.08 更新535.104.12為 。
-
每個 DLAMI 支援的新執行個體如下所示:
Deep Learning with Proprietary Nvidia Driver 支援 G3 (不支援 G3.16x)、P3, P3dn, Inf1
搭配 OSS Nvidia Driver 的深度學習支援 G4dn, G5, P4d, P4de。
已移除
從私有 Nvidia 驅動程式 DLAMI 移除 G4dn, G5, G3.16x EC2 執行個體支援。
76.8 版
發行日期:2024-03-20
AMI 名稱
深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 76.8 版
已新增
在 AMI 中新增 awscliv2 做為 /usr/local/bin/aws2,並在專有 Nvidia 驅動程式 AMI 上新增 awscliv1 做為 /usr/local/bin/aws
76.7 版
發行日期:2024-03-20
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 76.7 版
已新增
在 AMI 中新增 awscliv2 做為 /usr/local/bin/aws2,並在 OSS Nvidia 驅動程式 AMI 上新增 awscliv1 做為 /usr/local/bin/aws
-
根據目前的支援,以 G4dn 和 G5 支援更新 OSS Nvidia 驅動程式 DLAMI,如下所示:
Deep Learning Base 專屬 Nvidia Driver AMI (Amazon Linux 2) 支援 P3, P3dn, G3, G5, G4dn。
Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) 支援 G4dn, G5, P4, P5。
OSS Nvidia 驅動程式 DLAMIs建議用於 G4dn, G5, P4, P5。
76.3 版
發行日期:2024-02-14
Updated
將 TensorFlow 從 2.13.0 更新至 2.15.0
將 EFA 從 1.29.0 更新至 1.30.0
將 AWS-OFI-NCCL 從 1.7.3-aws 更新為 1.7.4-aws
在 Deep Learning 專屬 Nvidia Driver AMI 上將 Nvidia Driver 更新為 535.104.12
在深度學習 OSS Nvidia 驅動程式 AMI 上將 Nvidia 驅動程式更新為 535.154.05
76.2 版
發行日期:2024-02-02
AMI 名稱
深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 76.2 版
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 76.4 版
安全
更新 runc 套件版本,以使用 CVE-2024-21626
的修補程式。
76.1 版
發行日期:2023-12-27
Updated
將 PyTorch 從 2.0.1 更新至 2.1.0
75.1 版
發行日期:2023-11-17
請參閱 DLAMI 的重要變更
AMI 名稱
深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 75.1 版
Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 75.1 版
已新增
Updated
EFA 從 1.26.1 更新至 1.29.0
GDRCopy 從 2.3 更新至 2.4
74.4 版
發行日期:2023-10-27
Updated
AWS OFI NCCL 外掛程式從 1.7.2 版更新至 1.7.3 版
使用 NCCL 2.18.5 版更新 CUDA 12.0-12.1 目錄
-
CUDA12.1 已更新為預設 CUDA 版本
已更新 LD_LIBRARY_PATH 為 /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 和 PATH 為 /usr/local/cuda-12.1/bin/
對於想要變更為任何不同 CUDA 版本的客戶,請相應地定義 LD_LIBRARY_PATH 和 PATH 變數。
將 Pillow 從 9.4.0 版更新至 10.1.0,以修正所有 conda 環境中的 SNYK-PYTHON-PILLOW-5918878
將 opencv-python 從 4.8.0.74 更新至 4.8.1.78,以修正所有 conda 環境中的 SNYK-PYTHON-OPENCVPYTHON-5926695
已新增
-
Kernel Live Patching 現在已啟用。即時修補可讓客戶將安全性漏洞和關鍵錯誤修補程式套用至執行中的 Linux 核心,而不會重新啟動或中斷執行中的應用程式。
請注意,核心 5.10.192 的即時修補支援將於 11/30/23 結束。
如需詳細資訊,請參閱此處的官方 AWS 文件 - https://https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/al2-live-patching.html
74.0 版
發行日期:2023-07-19
Updated
-
將 TensorFlow 從 2.12 更新至 2.13
此版本已從 conda 環境移除 Horovod。如需安裝 horovod 的詳細資訊,請參閱 通知。
73.1 版
發行日期:2023-06-12
Updated
將 PyTorch 從 2.0.0 更新至 2.0.1