기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Deep Learning Base GPU AMI(Ubuntu 20.04)
지원 중단 알림
Ubuntu Linux 20.04 LTS는 2025년 5월 31일에 5년 LTS 기간이 종료되며 공급업체에서 더 이상 지원하지 않습니다. 따라서 AWS Deep Learning Base GPU AMI(Ubuntu 20.04)는 2025년 5월 31일 이후에는 업데이트되지 않습니다. 이전 릴리스는 계속 사용할 수 있습니다. 릴리스된 모든 AMI는 생성 날짜로부터 2년 후에 EC2에서 더 이상 사용되지 않습니다. 자세한 내용은 Amazon EC2 AMI 사용 중단을 참조하세요.
3개월 동안 2025년 8월 31일까지 기능 문제(보안 패치 아님)에 대해서만 지원이 제공됩니다.
Ubuntu 20.04 DLAMI 사용자는 AWS Deep Learning Base GPU AMI(Ubuntu 22.04)
또는 AWS Deep Learning Base GPU AMI(Ubuntu 24.04) 로 이동해야 합니다. 또는 AWS Deep Learning Base AMI(Amazon Linux 2023) 를 사용할 수 있습니다.
시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.
AMI 이름 형식
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) ${YYYY-MM-DD}
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) ${YYYY-MM-DD}
지원되는 EC2 인스턴스
DLAMI에 대한 중요 변경 사항을 참조하세요.
OSS Nvidia 드라이버를 사용한 딥 러닝은 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en 지원
독점 Nvidia 드라이버를 사용한 딥 러닝은 G3(G3.16x 지원되지 않음), P3, P3dn을 지원합니다.
AMI에는 다음이 포함됩니다.
지원되는 AWS 서비스: Amazon EC2
운영 체제: Ubuntu 20.04
컴퓨팅 아키텍처: x86
다음 패키지에 사용할 수 있는 최신 버전이 설치됩니다.
Linux 커널 5.15
FSx Lustre
Docker
/usr/local/bin/awsAWS CLI 2의 v2와 /usr/bin/aws의 AWS CLI v1
NVIDIA DCGM
Nvidia 컨테이너 툴킷:
버전 명령: nvidia-container-cli -V
Nvidia-docker2:
버전 명령: nvidia-docker 버전
NVIDIA 드라이버:
OSS Nvidia 드라이버: 550.163.01
독점 Nvidia 드라이버: 550.163.01
NVIDIA CUDA 11.7, 12.1-12.4 스택:
CUDA, NCCL 및 cuDDN 설치 디렉터리: /usr/local/cuda-xx.x/
예: /usr/local/cuda-12.1/
컴파일된 NCCL 버전: 2.22.3+CUDA12.4
기본 CUDA: 12.1
PATH /usr/local/cuda는 CUDA 12.1을 가리킵니다.
아래 env vars가 업데이트되었습니다.
LD_LIBRARY_PATH: have /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH에 /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.
NCCL 테스트 위치:
all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
NCCL 테스트를 실행하려면 LD_LIBRARY_PATH가 아래 업데이트를 통과해야 합니다.
공통 PATHs는 LD_LIBRARY_PATH에 이미 추가되었습니다.
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.
EFA 설치 관리자: 1.39.0
Nvidia GDRCopy: 2.4
AWS OFI NCCL 플러그인: EFA Installer-aws의 일부로 설치됨
AWS OFI NCCL은 이제 단일 빌드로 여러 NCCL 버전을 지원합니다.
설치 경로: /opt/aws-ofi-nccl/ . /opt/aws-ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됩니다.
링, message_transfer에 대한 테스트 경로: /opt/aws-ofi-nccl/tests
EBS 볼륨 유형: gp3
Python: /usr/bin/python3.9
NVMe 인스턴스 스토어 위치(지원되는 EC2 인스턴스): /opt/dlami/nvme
SSM 파라미터를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text독점 Nvidia 드라이버:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text독점 Nvidia 드라이버:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
고지 사항
NVIDIA 컨테이너 툴킷 1.17.4
Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서와 같이 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.
1.37에서 1.38로의 EFA 업데이트(2025-02-04 릴리스)
이제 EFA는 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.
지원 정책
CUDA 버전과 같은이 AMI의 구성 요소는 프레임워크 지원 정책에 따라 또는 딥 러닝 컨테이너
여러 네트워크 카드가 있는 EC2 인스턴스
EFA를 지원하는 많은 인스턴스 유형에는 여러 네트워크 카드도 있습니다.
DeviceIndex는 각 네트워크 카드마다 고유하며 NetworkCard당 ENIs 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENIs 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다.
기본 네트워크 인터페이스(네트워크 카드 인덱스 0, 디바이스 인덱스 0)의 경우 EFA(EFA with ENA) 인터페이스를 생성합니다. EFA 전용 네트워크 인터페이스를 기본 네트워크 인터페이스로 사용할 수 없습니다.
각 추가 네트워크 인터페이스에 대해 다음 미사용 네트워크 카드 인덱스, 디바이스 인덱스 1, ENA 대역폭 요구 사항 또는 IP 주소 공간과 같은 사용 사례에 따라 EFA(EFA with ENA) 또는 EFA 전용 네트워크 인터페이스를 사용합니다. 예제 사용 사례는 P5 인스턴스에 대한 EFA 구성을 참조하세요.
자세한 내용은 여기의 EFA 가이드를 참조하세요.
P5/P5e 인스턴스
P5 및 P5e 인스턴스에는 32개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 인스턴스
P5en에는 16개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
커널
커널 버전은 명령을 사용하여 고정됩니다.
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsDLAMI의 새 버전마다 사용 가능한 최신 호환 커널이 사용됩니다.
릴리스 날짜: 2025-04-24
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20250424
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20250424
Updated
2025년 4월 NVIDIA GPU 디스플레이 드라이버 보안 공지에 있는 CVEs를 해결하기 위해 Nvidia 드라이버를 버전 550.144.03에서 550.163.01로 업그레이드했습니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5630
릴리스 날짜: 2025-02-17
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20250214
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20250214
Updated
NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.
자세한 내용은 https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
릴리스 정보 페이지를 참조하세요. Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서와 같이 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.
제거됨
2025년 2월 18일
NVIDIA CUDA 도구 키트 보안 공지에 있는 CVE를 해결하기 위해 NVIDIA CUDA 도구 키트 에서 제공하는 사용자 공간 라이브러리 cuobj 및 nvdisasm 제거 CVEs
릴리스 날짜: 2025-02-04
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20250204
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20250204
Updated
EFA 버전을 1.37.0에서 1.38.0으로 업그레이드
이제 EFA는 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.
제거됨
emacs 패키지가 이러한 DLAMIs에서 제거되었습니다. 고객은 GNU emacs https://www.gnu.org/software/emacs/download.html
emacs를 설치할 수 있습니다.
릴리스 날짜: 2025-01-17
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20250117
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20250117
Updated
2025년 550.127.05월 NVIDIA GPU 디스플레이 드라이버 보안 공지에 있는 CVEs를 해결하기 위해 Nvidia 드라이버를 버전에서 550.144.03로 업그레이드했습니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5614
릴리스 날짜: 2024-12-09
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20241206
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20241206
Updated
Nvidia 컨테이너 툴킷을 버전 1.17.0에서 1.17.3으로 업그레이드했습니다.
릴리스 날짜: 2024-11-22
AMI 이름: Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20241122
추가됨
P5en EC2 인스턴스에 대한 지원이 추가되었습니다.
Updated
버전 1.35.0에서 1.37.0으로 EFA 설치 관리자 업그레이드
AWS OFI NCCL 플러그인을 버전 1.12.1-aws에서 1.13.0-aws로 업그레이드
릴리스 날짜: 2024-10-26
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20241025
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20241025
Updated
2024년 550.90.070월 NVIDIA GPU 디스플레이 보안 공지에 있는 CVEs를 해결하기 위해 Nvidia 드라이버를 버전에서 550.127.05로 업그레이드했습니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5586
릴리스 날짜: 2024-10-03
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240927
Updated
Nvidia 컨테이너 툴킷을 버전 1.16.1에서 1.16.2로 업그레이드했습니다.
릴리스 날짜: 2024-08-27
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240827
Updated
버전 535.183.01에서 550.90.07로 Nvidia 드라이버 및 Fabric Manager 업그레이드
EFA 버전을 1.32.0에서 1.34.0으로 업그레이드
모든 CUDA 버전에 대해 NCCL을 최신 버전 2.22.3으로 업그레이드
버전 2.16.2+CUDA11.7에서 업그레이드된 CUDA11.7
2.18.5+CUDA12.2에서 업그레이드된 CUDA12.2
버전 2.21.5+CUDA12.4에서 업그레이드된 CUDA12.3
추가됨
디렉터리 /usr/local/cuda-12.4에 CUDA 툴킷 버전 12.4 추가
P5e EC2 인스턴스에 대한 지원이 추가되었습니다.
제거됨
디렉터리 /usr/local/cuda-11.8에 있는 CUDA Toolkit 버전 11.8 스택 제거
릴리스 날짜: 2024-08-19
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240816
추가됨
G6e EC2 인스턴스
에 대한 지원이 추가되었습니다.
릴리스 날짜: 2024-06-06
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240606
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240606
Updated
Nvidia 드라이버 버전을 535.183.01에서 535.161.08로 업데이트했습니다.
릴리스 날짜: 2024-05-15
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240515
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240515
추가됨
PyTorch 1.13이 CUDA11.7을 지원하므로 CUDA11.7, NCCL 2.16.2, CuDNN 8.7.0과 함께 디렉터리 /usr/local/cuda-11.7에 백 CUDA11.7 스택 추가 CuDNN
릴리스 날짜: 2024-05-02
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240502
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240502
Updated
EFA 버전을 버전 1.30에서 버전 1.32로 업데이트했습니다.
AWS OFI NCCL 플러그인을 버전 1.7.4에서 버전 1.9.1로 업데이트했습니다.
Nvidia 컨테이너 툴킷을 버전 1.13.5에서 버전 1.15.0으로 업데이트했습니다.
버전 1.15.0에는 nvidia-container-runtime 및 nvidia-docker2 패키지가 포함되어 있지 않습니다. Nvidia 컨테이너 툴킷 문서에 따라 nvidia-container-toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/sample-workload.html
패키지를 직접 사용하는 것이 좋습니다.
추가됨
CUDA12.3, NCCL 2.21.5, CuDNN 8.9.7이 포함된 CUDA12.3 스택 추가 CuDNN
제거됨
/usrCUDA11/local/cuda-CUDA1211.7, usr/local/cuda-12.0 스택 제거usr/local/cuda-11
nvidia-docker2 패키지와 해당 명령 nvidia-docker를 nvidia-container-runtime 및 nvidia-docker2 패키지를 포함하지 않는 1.13.5에서 1.15.0
으로 업데이트하는 과정에서 제거했습니다.
릴리스 날짜: 2024-04-04
AMI 이름: Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240404
추가됨
OSS Nvidia 드라이버 DLAMIs 경우 G6 및 Gr6 EC2 인스턴스 지원이 추가되었습니다. 자세한 내용은 권장 GPU 인스턴스를 참조하세요.
릴리스 날짜: 2024-03-29
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240326
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240326
Updated
독점 및 OSS Nvidia 드라이버 DLAMI 모두에서 Nvidia 드라이버를 535.104.12에서 535.161.08로 업데이트했습니다. DLAMIs
독점 Nvidia 드라이버 DLAMI에서 G4dn, G5 EC2 인스턴스 지원을 제거했습니다.
각 DLAMI에 대해 지원되는 새 인스턴스는 다음과 같습니다.
독점 Nvidia 드라이버를 사용한 딥 러닝은 G3(G3.16x 지원되지 않음), P3, P3dn을 지원합니다.
OSS Nvidia 드라이버를 사용한 딥 러닝은 G4dn, G5, P4d, P4de, P5를 지원합니다.
릴리스 날짜: 2024-03-20
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240318
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240318
추가됨
/usr/local/bin/aws2의 AMI
awscliv2에 독점 및 OSS Nvidia 드라이버 AMI의 /usr/bin/awsawscliv1와 함께 추가됨
릴리스 날짜: 2024-03-14
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240314
Updated
현재 지원을 기반으로 G4dn 및 G5 지원이 포함된 업데이트된 OSS Nvidia 드라이버 DLAMI는 다음과 같습니다.
Deep Learning Base 독점 Nvidia 드라이버 AMI(Ubuntu 20.04)는 P3, P3dn, G3, G5, G4dn을 지원합니다.
Deep Learning Base OSS Nvidia 드라이버 AMI(Ubuntu 20.04)는 G5, G4dn, P4, P5를 지원합니다.
OSS Nvidia 드라이버 DLAMIs G5, G4dn, P4, P5에 사용하는 것이 좋습니다.
릴리스 날짜: 2024-02-12
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240208
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240208
Updated
AWS OFI NCCL 플러그인이 1.7.3에서 1.7.4로 업데이트되었습니다.
릴리스 날짜: 2024-02-01
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240201
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240201
[Security]
CVE-2024-21626
에 대한 패치를 사용하도록 실행 패키지 버전을 업데이트했습니다.
릴리스 날짜: 2023-12-04
AMI 이름
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20231204
Deep Learning Base 독점 Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20231204
추가됨
AWS Deep Learning AMI(DLAMI)는 두 개의 개별 그룹으로 분할됩니다.
Nvidia 독점 드라이버를 사용하는 DLAMI(P3, P3dn, G3, G5, G4dn 지원).
Nvidia OSS 드라이버를 사용하여 EFA(P4, P5 지원)를 활성화하는 DLAMI입니다.
DLAMI 분할에 대한 자세한 내용은 DLAMI에 대한 중요 변경 사항을 참조하세요.
AWS CLI 위의에 대한 쿼리는 AWSCLI를 사용한 글머리 기호 쿼리 AMI-ID 아래에 있습니다(예: 리전은 us-east-1).
Updated
EFA가 1.26.1에서 1.29.0으로 업데이트됨
GDRCopy가 2.3에서 2.4로 업데이트됨
릴리스 날짜: 2023-10-18
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20231018
Updated
AWS OFI NCCL 플러그인이 버전 1.7.2에서 버전 1.7.3으로 업데이트됨
CUDA 12.2와 일치하도록 NCCL 버전 2.18.5로 CUDA 12.0-12.1 디렉터리 업데이트
CUDA12.1이 기본 CUDA 버전으로 업데이트됨
/usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 및 PATH를 /usr/local/cuda-12.1/bin/으로 업데이트했습니다.
다른 CUDA 버전으로 변경하려는 고객의 경우 그에 따라 LD_LIBRARY_PATH 및 PATH 변수를 정의하십시오.
릴리스 날짜: 2023-10-02
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20231002
Updated
NVIDIA 드라이버가 535.54.03에서 535.104.12로 업데이트됨
NCCL 2.18.5로 CUDA 12.2 디렉터리 업데이트
EFA가 버전 1.24.1에서 최신 1.26.1로 업데이트됨
추가됨
/usr/local/cuda-12.2에 CUDA12.2 추가usr/local/cuda-12
제거됨
CUDA 11.5 및 CUDA 11.6에 대한 지원 제거
릴리스 날짜: 2023-09-26
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230926
추가됨
P5에 표시되는 예측할 수 없는 네트워크 인터페이스 이름 지정 문제(링크
)를 해결하기 위해 net.naming-scheme 변경 사항이 추가되었습니다. 이 변경은 파일 /etc/default/grub의 Linux 부트 인수에서 net.naming-scheme=v247을 설정하여 이루어집니다.
릴리스 날짜: 2023-08-30
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230830
Updated
aws-ofi-nccl 플러그인을 v1.7.1에서 v1.7.2로 업데이트했습니다.
릴리스 날짜: 2023-08-11
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230811
추가됨
이제이 AMI는 P5 및 이전에 지원되는 모든 EC2 인스턴스에서 다중 노드 훈련 기능을 지원합니다.
P5 EC2 인스턴스의 경우 NCCL 2.18을 사용하는 것이 권장되며 CUDA12.0 및 CUDA12.1에 추가되었습니다.
제거됨
CUDA11.3 및 CUDA11.4에 대한 지원이 제거되었습니다.
릴리스 날짜: 2023-08-04
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230804
Updated
AWS OFI NCCL 플러그인을 v1.7.1로 업데이트했습니다.
PyTorch 2.0이 11.8을 지원하므로 CUDA11.8을 기본값으로 설정했으며 P5 EC2 인스턴스의 경우 >=CUDA11.8을 사용하는 것이 좋습니다.
/usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 및 PATH를 /usr/local/cuda-11.8/bin/으로 업데이트했습니다.
다른 cuda 버전의 경우 그에 따라 LD_LIBRARY_PATH를 정의하십시오.
NCCL 2.18.3으로 CUDA 12.0, 12.1 디렉터리 업데이트
고정
이전 릴리스 날짜 2023-07-19에서 언급한 Nvidia Fabric Manager(FM) 패키지 로드 문제를 수정했습니다.
릴리스 날짜: 2023-07-19
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230719
Updated
EFA가 1.22.1에서 1.24.1로 업데이트됨
Nvidia 드라이버가 525.85.12에서 535.54.03로 업데이트됨
추가됨
최대 c-상태를 C1로 설정하여 프로세서의 유휴 상태를 비활성화하는 c-상태 변경을 추가했습니다. 이 변경은 파일 /etc/default/grub의 Linux 부트 인수에서 `intel_idle.max_cstate=1 processor.max_cstate=1`을 설정하여 이루어집니다.
AWS EC2 P5 인스턴스 지원:
단일 노드/인스턴스를 사용하는 워크플로에 대한 P5 EC2 인스턴스 지원이 추가되었습니다. EFA(Elastic Fabric Adapter) 및 AWS OFI NCCL 플러그인을 사용한 다중 노드 지원(예: 다중 노드 훈련용)이 향후 릴리스에 추가될 예정입니다.
최적의 성능을 얻으려면 CUDA>=11.8을 사용하십시오.
알려진 문제: Nvidia Fabric Manager(FM) 패키지는 P5에 로드하는 데 시간이 걸리므로 고객은 P5 인스턴스를 시작한 후 FM이 로드될 때까지 2~3분 동안 기다려야 합니다. FM이 시작되었는지 확인하려면 sudo systemctl is-active nvidia-fabricmanager 명령을 실행하십시오. 워크플로를 시작하기 전에 활성 상태로 반환되어야 합니다. 이는 향후 릴리스에서 개선될 예정입니다.
릴리스 날짜: 2023-05-19
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230519
Updated
EFA가 최신 1.22.1로 업데이트됨
CUDA 12.1의 NCCL 버전을 2.17.1로 업데이트했습니다.
추가됨
/usr/local/cuda-12.1에 CUDA12.1 추가usr/local/cuda-12
datacenter-gpu-manager 패키지를 통해 NVIDIA Data Center GPU Monitor(DCGM)
에 대한 지원 추가 sudo systemctl status nvidia-dcgm 쿼리를 통해이 서비스의 상태를 확인할 수 있습니다.
이제 임시 NVMe 인스턴스 스토어가 지원되는 EC2 인스턴스에 자동으로 탑재되며 /opt/dlami/nvme/ 폴더에서 스토리지에 액세스할 수 있습니다. 다음과 같은 방법으로이 서비스를 확인하거나 수정할 수 있습니다.
NVMe 서비스의 상태 확인: sudo systemctl status dlami-nvme
서비스에 액세스하거나 수정하려면: /opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe 볼륨은 IOPS 성능이 필요한 처리량이 많은 워크플로에 가장 빠르고 효율적인 스토리지 솔루션을 제공했습니다. 임시 NVMe 인스턴스 스토어는 인스턴스 비용에 포함되므로이 서비스에서 추가 비용이 발생하지 않습니다.
NVMe 인스턴스 스토어는 이를 지원하는 EC2 인스턴스에만 탑재됩니다. NVMe 지원 인스턴스 스토어가 있는 EC2 인스턴스에 대한 자세한 내용은 사용 가능한 인스턴스 스토어 볼륨을 참조하고 NVMe가 지원되는지 확인합니다.
디스크 성능을 개선하고 첫 번째 쓰기 페널티를 줄이기 위해 인스턴스 스토어를 초기화할 수 있습니다(참고:이 프로세스는 EC2 인스턴스 유형에 따라 몇 시간이 걸릴 수 있음). - EC2 인스턴스에서 인스턴스 스토어 볼륨 초기화
참고: NVMe 인스턴스 스토어는 인스턴스에 탑재되며 EBS와 같은 네트워크에 연결되지 않습니다. 이러한 NVMe 볼륨의 데이터는 인스턴스를 재부팅하거나 중지할 때 손실될 수 있습니다.
릴리스 날짜: 2023-04-17
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230414
Updated
DLAMI 이름을 AWS Deep Learning Base AMI GPU CUDA 11(Ubuntu 20.04) ${YYYY-MM-DD}에서 Deep Learning Base GPU AMI(Ubuntu 20.04) ${YYYY-MM-DD}로 업데이트했습니다.
필요한 지원을 위해 이번 릴리스부터 한 달 동안 이전 AMI 이름을 가진 최신 DLAMI를 지원할 예정입니다. 고객은 OS 패키지 apt-get update && apt-get upgrade를 업데이트하여 보안 패치를 사용할 수 있습니다.
AWS OFI NCCL 플러그인 경로를 /usr/local/cuda-xx.x/efa/에서 /opt/aws-ofi-nccl/로 업데이트했습니다.
모든 CUDA 버전에 대해 AWS 및 NCCL 팀이 공동 작성한 v2.16.2의 사용자 지정 GIT 브랜
치로 NCCL을 업데이트했습니다. AWS 인프라에서 더 나은 성능을 발휘합니다.
추가됨
/usr/local/cuda-12.0에 CUDA12.0 추가usr/local/cuda-12
AWS FSx
추가 /usr/bin/python3.9의 Python 버전 3.9에 대한 지원 추가
이 변경 사항은 기본 시스템 Python을 대체하지 않으며, python3는 여전히 시스템 Python3.8을 가리킵니다.
Python3.9는 다음 명령을 사용하여 액세스할 수 있습니다.
/usr/bin/python3.9 python3.9
제거됨
프레임워크 지원 정책에 따라 지원되는 프레임워크 버전에서 사용되지 않으므로 /usr/local/cuda-11.x/에서 CUDA11.0-11.1을 제거했습니다.usr/local/cuda-11
릴리스 날짜: 2022-05-25
AMI 이름: AWS Deep Learning Base AMI GPU CUDA 11(Ubuntu 20.04) 20220523
Updated
이 릴리스에는 새 EC2 인스턴스 p4de.24xlarge에 대한 지원이 추가되었습니다.
aws-efa-installer를 버전 1.15.2로 업데이트했습니다.
p4de.24xlarge에 대한 토폴로지를 포함하는 aws-ofi-nccl을 버전 1.3.0-aws로 업데이트했습니다.
릴리스 날짜: 2022-03-25
AMI 이름: AWS Deep Learning Base AMI GPU CUDA 11(Ubuntu 20.04) 20220325
Updated
EFA 버전을 1.15.0에서 1.15.1로 업데이트했습니다.
릴리스 날짜: 2022-03-17
AMI 이름: AWS Deep Learning Base AMI GPU CUDA 11(Ubuntu 20.04) 20220323
추가됨
최초 릴리스