AWS Deep Learning Base GPU AMI(Ubuntu 20.04)
지원 종료 알림
Ubuntu Linux 20.04 LTS가 2025년 5월 31일자로 LTS 5년 기한이 만료됨에 따라 공급업체의 지원이 중단됩니다. 따라서 AWS Deep Learning Base GPU AMI(Ubuntu 20.04)는 2025년 5월 31일 이후에는 업데이트되지 않습니다. 이전 릴리스는 계속 사용할 수 있습니다. 공개적으로 릴리스된 모든 AMI는 생성 날짜로부터 2년 후 EC2에서 더 이상 사용되지 않습니다. 자세한 내용은 Amazon EC2 AMI 지원 중단 섹션을 참조하세요.
2025년 8월 31일까지 3개월 동안 기능 관련 문제에 대해서만 지원이 제공됩니다(보안 패치 제외).
Ubuntu 20.04 DLAMI 사용자는 AWS Deep Learning Base GPU AMI(Ubuntu 22.04)
또는 AWS Deep Learning Base GPU AMI(Ubuntu 24.04) 로 이동해야 합니다. 또는 AWS Deep Learning Base AMI(Amazon Linux 2023) 를 사용할 수 있습니다.
시작하기에 관한 도움말은 DLAMI 시작하기 섹션을 참조하세요.
AMI 이름 형식
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) ${YYYY-MM-DD}
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) ${YYYY-MM-DD}
지원되는 EC2 인스턴스
중요 DLAMI 변경 사항을 참조하세요.
OSS Nvidia 드라이버를 사용하는 딥 러닝은 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en을 지원합니다.
독점 Nvidia 드라이버를 사용하는 딥 러닝은 G3(G3.16x는 지원되지 않음), P3, P3dn을 지원합니다.
AMI에는 다음이 포함됩니다.
지원되는 AWS 서비스: Amazon EC2
운영 체제: Ubuntu 20.04
컴퓨팅 아키텍처: x86
다음 패키지에 사용할 수 있는 최신 버전이 설치됩니다.
Linux 커널 5.15
FSx Lustre
Docker
/usr/local/bin/aws2의 AWS CLI v2 및 /usr/bin/aws의 AWS CLI v1
NVIDIA DCGM
Nvidia 컨테이너 툴킷:
버전 명령: nvidia-container-cli -V
Nvidia-docker2:
버전 명령: nvidia-docker 버전
NVIDIA 드라이버:
OSS Nvidia 드라이버: 550.163.01
독점 Nvidia 드라이버: 550.163.01
NVIDIA CUDA 11.7, 12.1-12.4 스택:
CUDA, NCCL 및 cuDDN 설치 디렉터리: /usr/local/cuda-xx.x/
예: /usr/local/cuda-12.1/
컴파일된 NCCL 버전: 2.22.3+CUDA12.4
기본 CUDA: 12.1
PATH /usr/local/cuda는 CUDA 12.1을 가리킵니다.
아래 env vars가 업데이트되었습니다.
LD_LIBRARY_PATH: /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH: /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
다른 CUDA 버전의 경우 LD_LIBRARY_PATH를 그에 맞게 업데이트하세요.
NCCL 테스트 위치:
all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
NCCL 테스트를 실행하려면 LD_LIBRARY_PATH에 아래 업데이트를 반영해 전달해야 합니다.
공통 PATH가 다음 LD_LIBRARY_PATH에 이미 추가됨:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
다른 CUDA 버전의 경우 LD_LIBRARY_PATH를 그에 맞게 업데이트하세요.
EFA 설치 관리자: 1.39.0
Nvidia GDRCopy: 2.4
AWS OFI NCCL 플러그인: EFA Installer-aws의 일부로 설치됨
AWS OFI NCCL은 이제 단일 빌드로 여러 NCCL 버전을 지원합니다.
설치 경로: /opt/aws-ofi-nccl/ . /opt/aws-ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됩니다.
링, message_transfer에 대한 테스트 경로: /opt/aws-ofi-nccl/tests
EBS 볼륨 유형: gp3
Python: /usr/bin/python3.9
NVMe 인스턴스 저장소 위치(지원되는 EC2 인스턴스): /opt/dlami/nvme
SSM 파라미터를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text독점 Nvidia 드라이버:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text독점 Nvidia 드라이버:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
고지 사항
NVIDIA Container Toolkit 1.17.4
Container Toolkit 버전 1.17.4에서는 이제 CUDA 호환 라이브러리 탑재가 비활성화됩니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서에 표시된 대로 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.
EFA를 1.37에서 1.38로 업데이트(2025-02-04 릴리스)
EFA는 이제 AWS OFI NCCL 플러그인을 번들링하며, 이제 원래 /opt/aws-ofi-nccl/이 아닌 /opt/amazon/ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.
지원 정책
CUDA 버전과 같은 이 AMI의 구성 요소는 프레임워크 지원 정책에 따라 또는 딥 러닝 컨테이너
여러 네트워크 카드가 있는 EC2 인스턴스
EFA를 지원하는 많은 인스턴스 유형에는 여러 네트워크 카드도 있습니다.
DeviceIndex는 각 네트워크 카드에 고유하며, NetworkCard당 ENI의 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENI의 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다.
기본 네트워크 인터페이스(네트워크 카드 인덱스 0, 디바이스 인덱스 0)에 대해 EFA(ENA 포함 EFA) 인터페이스를 생성합니다. EFA 전용 네트워크 인터페이스를 기본 네트워크 인터페이스로 사용할 수 없습니다.
추가 네트워크 인터페이스마다 ENA 대역폭 요구 사항이나 IP 주소 공간과 같이 사용자의 사용 사례에 따라 다음 미사용 네트워크 카드 인덱스, 디바이스 인덱스 1, ENA(ENA 포함 EFA) 또는 EFA 전용 네트워크 인터페이스를 사용합니다. 예제 사용 사례는 P5 인스턴스에 대한 EFA 구성을 참조하세요.
자세한 내용은 여기에서 EFA 가이드를 참조하세요.
P5/P5e 인스턴스
P5 및 P5e 인스턴스에는 32개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 인스턴스
P5en에는 16개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
커널
커널 버전은 다음 명령을 사용하여 고정되어 있습니다.
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsDLAMI의 새 버전마다 사용 가능한 최신 호환 커널이 사용됩니다.
릴리스 날짜: 2025-04-24
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20250424
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20250424
업데이트
2025년 4월 NVIDIA GPU 디스플레이 드라이버 보안 공지
에 있는 CVE를 해결하기 위해 NVIDIA 드라이버를 버전 550.144.03에서 550.163.01로 업그레이드했습니다.
릴리스 날짜: 2025-02-17
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20250214
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20250214
업데이트
NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.
자세한 내용은 https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
릴리스 정보 페이지를 참조하세요. Container Toolkit 버전 1.17.4에서는 이제 CUDA 호환 라이브러리 탑재가 비활성화됩니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서에 표시된 대로 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.
제거됨
2025년 2월 18일 NVIDIA CUDA 툴킷 보안 공지
에 있는 CVE를 해결하기 위해 NVIDIA CUDA 툴킷 에서 제공하는 사용자 스페이스 라이브러리 cuobj 및 nvdisasm을 제거했습니다.
릴리스 날짜: 2025-02-04
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20250204
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20250204
업데이트
EFA 버전을 1.37.0에서 1.38.0으로 업그레이드
EFA는 이제 AWS OFI NCCL 플러그인을 번들링하며, 이제 원래 /opt/aws-ofi-nccl/이 아닌 /opt/amazon/ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.
제거됨
emacs 패키지가 이러한 DLAMI에서 제거되었습니다. 고객은 GNU emacs https://www.gnu.org/software/emacs/download.html
에서 emacs를 설치할 수 있습니다.
릴리스 날짜: 2025-01-17
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20250117
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20250117
업데이트
2025년 1월 NVIDIA GPU 디스플레이 드라이버 보안 공지
에 있는 CVE를 해결하기 위해 NVIDIA 드라이버를 버전 550.127.05에서 550.144.03으로 업그레이드했습니다.
릴리스 날짜: 2024-12-09
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20241206
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20241206
업데이트
Nvidia Container Toolkit을 버전 1.17.0에서 1.17.3으로 업그레이드
릴리스 날짜: 2024-11-22
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20241122
추가됨
P5en EC2 인스턴스에 대한 지원이 추가되었습니다.
업데이트
EFA 설치 프로그램 버전 1.35.0에서 1.37.0으로 업그레이드
AWS OFI NCCL 플러그인을 버전 1.12.1-aws에서 1.13.0-aws로 업그레이드
릴리스 날짜: 2024-10-26
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20241025
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20241025
업데이트
2024년 10월 NVIDIA GPU 디스플레이 보안 공지
에 있는 CVE를 해결하기 위해 NVIDIA 드라이버를 버전 550.90.07에서 550.127.05로 업그레이드했습니다.
릴리스 날짜: 2024-10-03
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240927
업데이트
Nvidia Container Toolkit을 버전 1.16.1에서 1.16.2으로 업그레이드
릴리스 날짜: 2024-08-27
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240827
업데이트
버전 535.183.01에서 550.90.07로 Nvidia 드라이버 및 Fabric Manager 업그레이드
EFA 버전을 1.32.0에서 1.34.0으로 업그레이드
모든 CUDA 버전에 대해 NCCL을 최신 버전 2.22.3으로 업그레이드
버전 2.16.2+CUDA11.7에서 업그레이드된 CUDA 11.7
2.18.5+CUDA12.2에서 업그레이드된 CUDA 12.1, 12.2
버전 2.21.5+CUDA12.4에서 업그레이드된 CUDA 12.3
추가됨
디렉터리 /usr/local/cuda-12.4에 CUDA 툴킷 버전 12.4 추가
P5e EC2 인스턴스에 대한 지원이 추가되었습니다.
제거됨
디렉터리 /usr/local/cuda-11.8에 있는 CUDA Toolkit 버전 11.8 스택 제거
릴리스 날짜: 2024-08-19
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240816
추가됨
G6e EC2 인스턴스
에 대한 지원이 추가되었습니다.
릴리스 날짜: 2024-06-06
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240606
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20240606
업데이트
Nvidia 드라이버 버전을 535.183.01에서 535.161.08로 업데이트
릴리스 날짜: 2024-05-15
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240515
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20240515
추가됨
PyTorch 1.13이 CUDA11.7을 지원하므로 CUDA11.7, NCCL 2.16.2, CuDNN 8.7.0과 함께 디렉터리 /usr/local/cuda-11.7에 CUDA11.7 스택을 다시 추가했습니다.
릴리스 날짜: 2024-05-02
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240502
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20240502
업데이트
EFA 버전을 버전 1.30에서 버전 1.32로 업데이트
AWS OFI NCCL 플러그인을 버전 1.7.4에서 버전 1.9.1로 업데이트
Nvidia 컨테이너 툴킷을 버전 1.13.5에서 버전 1.15.0
으로 업데이트 버전 1.15.0에는 nvidia-container-runtime 및 nvidia-docker2 패키지가 포함되지 않습니다. Nvidia 컨테이너 툴킷 문서
에 따라 nvidia-container-toolkit 패키지를 직접 사용하는 것이 좋습니다.
추가됨
CUDA12.3, NCCL 2.21.5, CuDNN 8.9.7이 포함된 CUDA12.3 스택 추가
제거됨
/usr/local/cuda-11.7 및 /usr/local/cuda-12.0 디렉터리에 있는 CUDA11.7, CUDA12.0 스택 제거
nvidia-container-runtime 및 nvidia-docker2 패키지를 포함하지 않는 Nvidia 컨테이너 툴킷을 1.13.5에서 1.15.0
으로 업데이트하는 과정에서 nvidia-docker2 패키지와 해당 명령 nvidia-docker를 제거했습니다.
릴리스 날짜: 2024-04-04
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240404
추가됨
OSS Nvidia 드라이버 DLAMI에 G6 및 Gr6 EC2 인스턴스 지원이 추가되었습니다. 자세한 내용은 권장 GPU 인스턴스를 참조하세요.
릴리스 날짜: 2024-03-29
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240326
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20240326
업데이트
독점 및 OSS Nvidia 드라이버 DLAMI 모두에서 Nvidia 드라이버를 535.104.12에서 535.161.08로 업데이트했습니다.
독점 Nvidia 드라이버 DLAMI에서 G4dn, G5 EC2 인스턴스 지원을 제거했습니다.
각 DLAMI에 대해 지원되는 새 인스턴스는 다음과 같습니다.
독점 Nvidia 드라이버를 사용하는 딥 러닝은 G3(G3.16x는 지원되지 않음), P3, P3dn을 지원합니다.
OSS Nvidia 드라이버를 사용하는 딥 러닝은 G4dn, G5, P4d, P4de, P5를 지원합니다.
릴리스 날짜: 2024-03-20
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240318
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20240318
추가됨
awscliv2를 AMI의 /usr/local/bin/aws2에, 독점 및 OSS Nvidia Driver AMI에서awscliv1을 /usr/bin/aws로 추가했습니다.
릴리스 날짜: 2024-03-14
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240314
업데이트
현재 지원을 기반으로 G4dn 및 G5 지원이 포함된 업데이트된 OSS Nvidia 드라이버 DLAMI는 다음과 같습니다.
Deep Learning Base Proprietary Nvidia Driver AMI(Ubuntu 20.04)는 P3, P3dn, G3, G5, G4dn을 지원합니다.
Deep Learning Base OSS Nvidia Driver AMI(Ubuntu 20.04)는 G5, G4dn, P4, P5를 지원합니다.
OSS Nvidia 드라이버 DLAMI는 G5, G4dn, P4, P5에 사용하는 것이 좋습니다.
릴리스 날짜: 2024-02-12
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240208
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20240208
업데이트
AWS OFI NCCL 플러그인이 1.7.3에서 1.7.4로 업데이트되었습니다.
릴리스 날짜: 2024-02-01
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20240201
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20240201
보안
CVE-2024-21626
에 대한 패치를 사용하도록 runc 패키지 버전을 업데이트했습니다.
릴리스 날짜: 2023-12-04
AMI 이름
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04) 20231204
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04) 20231204
추가됨
AWS Deep Learning AMI(DLAMI)는 두 개의 개별 그룹으로 분할됩니다.
NVIDIA 독점 드라이버(P3, P3dn, G3, G5, G4dn 지원)를 사용하는 DLAMI.
Nvidia OSS 드라이버를 사용하여 EFA(P4, P5 지원)를 활성화하는 DLAMI.
DLAMI 분할에 대한 자세한 내용은 중요 DLAMI 변경 사항을 참조하세요.
위에 대한 AWS CLI 쿼리는 AWSCLI를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1) 글머리 기호 아래에 있습니다.
업데이트
EFA를 1.26.1에서 1.29.0으로 업데이트
GDRCopy를 2.3에서 2.4로 업데이트
릴리스 날짜: 2023-10-18
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20231018
업데이트
AWS OFI NCCL 플러그인을 버전 1.7.2에서 버전 1.7.3으로 업데이트
CUDA 12.2와 일치하도록 CUDA 12.0-12.1 디렉터리를 NCCL 버전 2.18.5로 업데이트
CUDA12.1이 기본 CUDA 버전으로 업데이트됨
LD_LIBRARY_PATH를 /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1로, PATH를 /usr/local/cuda-12.1/bin/으로 업데이트
다른 CUDA 버전으로 변경하려는 고객의 경우 그에 따라 LD_LIBRARY_PATH 및 PATH 변수를 정의하세요.
릴리스 날짜: 2023-10-02
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20231002
업데이트
NVIDIA 드라이버를 535.54.03에서 535.104.12로 업데이트
CUDA 12.2 디렉터리를 NCCL 2.18.5로 업데이트
EFA를 버전 1.24.1에서 최신 1.26.1로 업데이트
추가됨
/usr/local/cuda-12.2에 CUDA12.2 추가
제거됨
CUDA 11.5 및 CUDA 11.6에 대한 지원 제거
릴리스 날짜: 2023-09-26
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230926
추가됨
P5에 표시되는 예측할 수 없는 네트워크 인터페이스 이름 지정 문제(링크
)를 해결하기 위해 net.naming-scheme 변경 사항이 추가되었습니다. 이러한 변경은 파일 /etc/default/grub의 Linux 부트 인수에서 net.naming-scheme=v247을 설정하여 이루어집니다.
릴리스 날짜: 2023-08-30
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230830
업데이트
aws-ofi-nccl 플러그인을 v1.7.1에서 v1.7.2로 업데이트
릴리스 날짜: 2023-08-11
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230811
추가됨
이제 이 AMI는 P5 및 이전에 지원되던 모든 EC2 인스턴스에서 다중 노드 훈련 기능을 지원합니다.
P5 EC2 인스턴스의 경우 NCCL 2.18을 사용하는 것이 권장되며 CUDA12.0 및 CUDA12.1에 추가되었습니다.
제거됨
CUDA11.3 및 CUDA11.4에 대한 지원이 제거되었습니다.
릴리스 날짜: 2023-08-04
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230804
업데이트
AWS OFI NCCL 플러그인을 v1.7.1로 업데이트
PyTorch 2.0이 11.8을 지원하므로 CUDA11.8을 기본값으로 설정했으며 P5 EC2 인스턴스의 경우 CUDA11.8 이상을 사용하는 것이 좋습니다.
LD_LIBRARY_PATH를 /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8로, PATH를 /usr/local/cuda-11.8/bin/으로 업데이트
다른 cuda 버전의 경우 LD_LIBRARY_PATH를 그에 맞게 정의하세요.
CUDA 12.0, 12.1 디렉터리를 NCCL 2.18.3으로 업데이트
고정
이전 릴리스 날짜 2023-07-19에서 언급된 Nvidia Fabric Manager(FM) 패키지 로드 문제를 수정했습니다.
릴리스 날짜: 2023-07-19
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230719
업데이트
EFA를 1.22.1에서 1.24.1으로 업데이트
Nvidia 드라이버를 525.85.12에서 535.54.03으로 업데이트
추가됨
최대 C 상태를 C1로 설정하여 프로세서의 유휴 상태를 비활성화하는 C 상태 변경을 추가했습니다. 이러한 변경은 파일 /etc/default/grub의 Linux 부트 인수에서 `intel_idle.max_cstate=1 processor.max_cstate=1`을 설정하여 이루어집니다.
AWS EC2 P5 인스턴스 지원:
단일 노드/인스턴스를 사용하는 워크플로에 대한 P5 EC2 인스턴스 지원이 추가되었습니다. EFA(Elastic Fabric Adapter) 및 AWS OFI NCCL 플러그인을 사용한 다중 노드 지원(예: 다중 노드 훈련용)이 향후 릴리스에 추가될 예정입니다.
최적의 성능을 얻으려면 CUDA>=11.8을 사용하세요.
알려진 문제: Nvidia Fabric Manager(FM) 패키지는 P5에 로드하는 데 시간이 걸리므로 고객은 P5 인스턴스를 시작한 후 FM이 로드될 때까지 2~3분 동안 기다려야 합니다. FM이 시작되었는지 확인하려면 sudo systemctl is-active nvidia-fabricmanager 명령을 실행하세요. 워크플로를 시작하기 전에 활성을 반환해야 합니다. 이 문제는 향후 릴리스에서 향상될 예정입니다.
릴리스 날짜: 2023-05-19
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230519
업데이트
EFA를 최신 1.22.1로 업데이트
CUDA 12.1의 NCCL 버전을 2.17.1로 업데이트
추가됨
/usr/local/cuda-12.1에 CUDA12.1 추가
datacenter-gpu-manager 패키지를 통해 NVIDIA Data Center GPU Monitor(DCGM)
에 대한 지원 추가 sudo systemctl status nvidia-dcgm 쿼리를 통해 이 서비스의 상태를 확인할 수 있습니다.
이제 임시 NVMe 인스턴스 저장소가 지원되는 EC2 인스턴스에 자동으로 탑재되며 /opt/dlami/nvme/ 폴더에서 스토리지에 액세스할 수 있습니다. 다음과 같은 방법으로 이 서비스를 확인하거나 수정할 수 있습니다.
NVMe 서비스의 상태 확인: sudo systemctl status dlami-nvme
서비스에 액세스하거나 수정하려면: /opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe 볼륨은 IOPS 성능이 필요한 처리량이 많은 워크플로에 가장 빠르고 효율적인 스토리지 솔루션을 제공했습니다. 임시 NVMe 인스턴스 저장소는 인스턴스 비용에 포함되므로 이 서비스에서 추가 비용이 발생하지 않습니다.
NVMe 인스턴스 저장소는 이를 지원하는 EC2 인스턴스에만 탑재됩니다. NVMe 지원 인스턴스 저장소가 있는 EC2 인스턴스에 대한 자세한 내용은 사용 가능한 인스턴스 저장소 볼륨을 참조하고 NVMe가 지원되는지 확인합니다.
디스크 성능을 개선하고 최초 쓰기 페널티를 줄이기 위해 인스턴스 저장소를 초기화할 수 있습니다(참고: 이 프로세스는 EC2 인스턴스 유형에 따라 몇 시간이 걸릴 수 있음). - EC2 인스턴스에서 인스턴스 저장소 볼륨 초기화
참고: NVMe 인스턴스 저장소는 인스턴스에 탑재되며 EBS와 같은 네트워크에 연결되지 않습니다. 이러한 NVMe 볼륨의 데이터는 인스턴스를 재부팅하거나 중지할 때 손실될 수 있습니다.
릴리스 날짜: 2023-04-17
AMI 이름: Deep Learning Base GPU AMI(Ubuntu 20.04) 20230414
업데이트
DLAMI 이름을 AWS Deep Learning Base AMI GPU CUDA 11(Ubuntu 20.04) ${YYYY-MM-DD}에서 Deep Learning Base GPU AMI(Ubuntu 20.04) ${YYYY-MM-DD}로 업데이트했습니다.
필요한 지원을 위해 이번 릴리스부터 한 달 동안 이전 AMI 이름의 최신 DLAMI를 지원할 예정입니다. 고객은 OS 패키지 apt-get update && apt-get upgrade를 업데이트하여 보안 패치를 사용할 수 있습니다.
AWS OFI NCCL 플러그인 경로를 /usr/local/cuda-xx.x/efa/에서 /opt/aws-ofi-nccl/로 업데이트했습니다.
NCCL을 모든 CUDA 버전에 대해 AWS 및 NCCL 팀이 공동 작성한 v2.16.2의 사용자 지정 GIT 브랜치
로 업데이트했습니다. AWS 인프라에서 더 나은 성능을 발휘합니다.
추가됨
/usr/local/cuda-12.0에 CUDA12.0 추가
AWS FSx
추가 /usr/bin/python3.9에서 Python 버전 3.9에 대한 지원 추가
이 변경 사항은 기본 시스템 Python을 대체하지 않으며, python3는 여전히 시스템 Python3.8을 가리킵니다.
Python3.9는 다음 명령을 사용하여 액세스할 수 있습니다.
/usr/bin/python3.9 python3.9
제거됨
프레임워크 지원 정책에 따라 지원되는 프레임워크 버전에서 사용되지 않으므로 /usr/local/cuda-11.x/에서 CUDA11.0-11.1을 제거했습니다.
릴리스 날짜: 2022-05-25
AMI 이름: AWS Deep Learning Base AMI GPU CUDA 11(Ubuntu 20.04) 20220523
업데이트
이 릴리스에는 새 EC2 인스턴스 p4de.24xlarge에 대한 지원이 추가되었습니다.
aws-efa-installer를 버전 1.15.2로 업데이트
aws-ofi-nccl을 p4de.24xlarge에 대한 토폴로지를 포함하는 버전 1.3.0-aws로 업데이트했습니다.
릴리스 날짜: 2022-03-25
AMI 이름: AWS Deep Learning Base AMI GPU CUDA 11(Ubuntu 20.04) 20220325
업데이트
EFA 버전을 1.15.0에서 1.15.1로 업데이트
릴리스 날짜: 2022-03-17
AMI 이름: AWS Deep Learning Base AMI GPU CUDA 11(Ubuntu 20.04) 20220323
추가됨
최초 릴리스