本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Deep Learning Base GPU AMI (Ubuntu 24.04)
如需入門說明,請參閱 DLAMI 入門。
AMI 名稱格式
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 24.04) ${YYYY-MM-DD}
支援的 EC2 執行個體
請參閱 DLAMI 的重要變更。
搭配 OSS Nvidia Driver 的深度學習支援 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200。
AMI 包含下列項目:
支援服務 AWS :Amazon EC2
作業系統:Ubuntu 24.04
運算架構:x86
下列套件已安裝最新的可用版本:
Linux 核心:6.8
FSx Lustre
Docker
AWS CLI v2 於 /usr/bin/aws
NVIDIA DCGM
Nvidia 容器工具組:
版本命令:nvidia-container-cli -V
Nvidia-docker2:
版本命令:nvidia-docker 版本
NVIDIA 驅動程式:570.133.20
NVIDIA CUDA12.6 和 12.8 堆疊:
CUDA、NCCL 和 cuDDN 安裝目錄:/usr/local/cuda-xx.x/
範例:/usr/local/cuda-12.8/ 、/usr/local/cuda-12.8/
編譯的 NCCL 版本:2.25.1
預設 CUDA:12.8
PATH /usr/local/cuda 指向 CUDA 12.8
已更新下列 env vars:
LD_LIBRARY_PATH 具有 /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64
PATH 讓 /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
對於任何不同的 CUDA 版本,請相應地更新 LD_LIBRARY_PATH。
EFA 安裝程式:1.40.0
Nvidia GDRCopy:2.5.1
AWS OFI NCCL:1.14.2-aws
安裝路徑:/opt/amazon/ofi-nccl/ 。路徑 /opt/amazon/ofi-nccl/lib 已新增至 LD_LIBRARY_PATH。
AWS CLI v2 於 /usr/bin/aws
EBS 磁碟區類型:gp3
Python:/usr/bin/python3.12
NVMe 執行個體存放區位置 (在支援的 EC2 執行個體上):/opt/dlami/nvme
使用 SSM 參數查詢 AMI-ID (範例區域為 us-east-1):
OSS Nvidia 驅動程式:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \ --query "Parameter.Value" \ --output text
使用 AWSCLI 查詢 AMI-ID (範例區域為 us-east-1):
OSS Nvidia 驅動程式:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
注意
支援政策
此 AMIs的這些 AMI 元件,例如 CUDA 版本,可能會根據架構支援政策來移除和變更,或最佳化深度學習容器
具有多個網路卡的 EC2 執行個體
許多支援 EFA 的執行個體類型也具有多個網路卡。
DeviceIndex 對每個網路卡都是唯一的,且必須是小於每個 NetworkCard ENIs 限制的非負整數。在 P5 上,每個 NetworkCard ENIs 數目為 2,這表示 DeviceIndex 的唯一有效值為 0 或 1。
針對主要網路介面 (網路卡索引 0、裝置索引 0),建立 EFA (EFA 搭配 ENA) 介面。您不能使用僅限 EFA 的網路介面做為主要網路介面。
對於每個額外的網路界面,請使用下一個未使用的網路卡索引、裝置索引 1,以及 EFA (EFA 搭配 ENA) 或僅限 EFA 網路界面,視您的使用案例而定,例如 ENA 頻寬需求或 IP 地址空間。如需範例使用案例,請參閱 P5 執行個體的 EFA 組態。
如需詳細資訊,請參閱此處的 EFA 指南。
P6-B200 執行個體
P6-B200 執行個體包含 8 張網路介面卡,可使用下列 AWS CLI 命令啟動:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 執行個體
P5en 包含 16 張網路介面卡,可以使用下列 AWS CLI 命令啟動:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e 執行個體
P5 和 P5e 執行個體包含 32 張網路介面卡,可使用下列 AWS CLI 命令啟動:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
核心
核心版本使用 命令鎖定:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
我們建議使用者避免更新其核心版本 (除非因為安全性修補程式),以確保與已安裝的驅動程式和套件版本相容。如果使用者仍想要更新,他們可以執行下列命令來取消鎖定核心版本:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
對於每個新版本的 DLAMI,會使用最新的可用相容核心。
發行日期:2025-05-22
AMI 名稱:深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 24.04) 20250522
已新增
新增對 P6-B200 EC2 執行個體
的支援
Updated
已將 EFA 安裝程式從 1.40.0 版升級至 1.41.0 版
已將編譯的 NCCL 版本從 2.25.1 版更新至 2.26.5 版
將 Nvidia DCGM 版本從 3.3.9 更新至 4.4.3
版本日期:2025-05-13
AMI 名稱:深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 24.04) 20250513
已新增
適用於 Ubuntu 24.04 的深度學習基礎 OSS DLAMI 初始版本