기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Deep Learning Base GPU AMI(Ubuntu 22.04)
시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.
AMI 이름 형식
Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 22.04) ${YYYY-MM-DD}
지원되는 EC2 인스턴스
DLAMI에 대한 중요 변경 사항을 참조하세요.
OSS Nvidia 드라이버를 사용한 딥 러닝은 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200을 지원합니다.
AMI에는 다음이 포함됩니다.
지원되는 AWS 서비스: Amazon EC2
운영 체제: Ubuntu 22.04
컴퓨팅 아키텍처: x86
다음 패키지에 사용할 수 있는 최신 버전이 설치됩니다.
Linux 커널: 6.8
FSx Lustre
Docker
/usr/local/bin/awsAWS CLI 2의 v2와 /usr/bin/aws의 AWS CLI v1
NVIDIA DCGM
Nvidia 컨테이너 툴킷:
버전 명령: nvidia-container-cli -V
Nvidia-docker2:
버전 명령: nvidia-docker 버전
NVIDIA 드라이버: 570.133.20
NVIDIA CUDA12.4-12.6 및 12.8 스택:
CUDA, NCCL 및 cuDDN 설치 디렉터리: /usr/local/cuda-xx.x/
예: /usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
컴파일된 NCCL 버전: 2.26.5
기본 CUDA: 12.8
PATH /usr/local/cuda는 CUDA 12.8을 가리킵니다.
아래 env vars가 업데이트되었습니다.
LD_LIBRARY_PATH: have /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib64
PATH에 /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.
EFA 설치 관리자: 1.40.0
Nvidia GDRCopy: 2.5
AWS OFI NCCL: 1.14.2-aws
설치 경로: /opt/amazon/ofi-nccl/ . /opt/amazon/ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됩니다.
/usr/local/bin/awsAWS CLI 2의 v2와 /usr/bin/aws AWS CLI v1
EBS 볼륨 유형: gp3
Python: /usr/bin/python3.10
NVMe 인스턴스 스토어 위치(지원되는 EC2 인스턴스): /opt/dlami/nvme
SSM 파라미터를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
고지 사항
NVIDIA 컨테이너 툴킷 1.17.4
Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서에 표시된 대로 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.
1.37에서 1.38로 EFA 업데이트(2025-01-31 릴리스)
이제 EFA는 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.
다중 ENI 지원
Ubuntu 22.04는 초기 부팅 시 cloud-init를 사용하여 여러 NICss에서 소스 라우팅을 자동으로 설정하고 구성합니다. 워크플로에 인스턴스가 중지된 동안 ENIs 연결/분리가 포함된 경우 이러한 이벤트 중에 NIC의 적절한 구성을 보장하기 위해 cloud-init 사용자 데이터에 추가 구성을 추가해야 합니다. 클라우드 구성의 샘플이 아래에 나와 있습니다.
인스턴스에 대한 클라우드 구성을 구성하는 방법에 대한 자세한 내용은이 표준 설명서를 참조하세요. - https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automatically-setup-multiple-nics/
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']
지원 정책
CUDA 버전과 같은이 AMIs의 이러한 AMI 구성 요소는 프레임워크 지원 정책에 따라 또는 딥 러닝 컨테이너
여러 네트워크 카드가 있는 EC2 인스턴스
EFA를 지원하는 많은 인스턴스 유형에는 여러 네트워크 카드도 있습니다.
DeviceIndex는 각 네트워크 카드에 고유하며 NetworkCard당 ENIs 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENIs 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다.
기본 네트워크 인터페이스(네트워크 카드 인덱스 0, 디바이스 인덱스 0)의 경우 EFA(EFA with ENA) 인터페이스를 생성합니다. EFA 전용 네트워크 인터페이스를 기본 네트워크 인터페이스로 사용할 수 없습니다.
각 추가 네트워크 인터페이스에 대해 다음 미사용 네트워크 카드 인덱스, 디바이스 인덱스 1, ENA 대역폭 요구 사항 또는 IP 주소 공간과 같은 사용 사례에 따라 EFA(EFA with ENA) 또는 EFA 전용 네트워크 인터페이스를 사용합니다. 예제 사용 사례는 P5 인스턴스의 EFA 구성을 참조하세요.
자세한 내용은 여기의 EFA 가이드를 참조하세요.
P6-B200 인스턴스
P6-B200에는 8개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 인스턴스
P5en에는 16개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e 인스턴스
P5 및 P5e 인스턴스에는 32개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
커널
커널 버전은 명령을 사용하여 고정됩니다.
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
DLAMI의 새 버전마다 사용 가능한 최신 호환 커널이 사용됩니다.
릴리스 날짜: 2025-05-16
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250516
추가됨
P6-B200 EC2 인스턴스에 대한 지원 추가
Updated
버전 1.39.0에서 1.40.0으로 EFA 설치 관리자 업그레이드
AWS OFI NCCL 플러그인을 버전 1.13.0-aws에서 1.14.2-aws로 업그레이드
컴파일된 NCCL 버전을 버전 2.22.3에서 2.26.5로 업데이트했습니다.
기본 CUDA 버전을 버전 12.6에서 12.8로 업데이트했습니다.
Nvidia DCGM 버전을 3.3.9에서 4.4.3으로 업데이트했습니다.
릴리스 날짜: 2025-05-05
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250503
Updated
2.4.1에서 2.5.1로 GDRCopy 업그레이드
릴리스 날짜: 2025-04-24
AMI 이름: Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 22.04) 20250424
Updated
2025년 4월 NVIDIA GPU 디스플레이 드라이버 보안 공지에 있는 CVEs를 해결하기 위해 Nvidia 드라이버를 버전 570.124.06에서 570.133.20로 업그레이드했습니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5630
릴리스 날짜: 2025-02-17
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250214
Updated
NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.
자세한 내용은 여기에서 릴리스 정보 페이지를 참조하세요. https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서와 같이 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.
제거됨
2025년 2월 18일
NVIDIA CUDA 도구 키트 보안 공지에 있는 CVE를 해결하기 위해 NVIDIA CUDA 도구 키트 에서 제공하는 사용자 공간 라이브러리 cuobj 및 nvdisasm 제거 CVEs
릴리스 날짜: 2025-02-07
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250205
추가됨
디렉터리 /usr/local/cuda-12.6에 CUDA 도구 키트 버전 12.6 추가
제거됨
CUDA 버전 12.1 및 12.2가이 DLAMI에서 제거되었습니다. 고객은 아래 링크를 사용하여 NVIDIA에서 이러한 버전을 설치할 수 있습니다.
릴리스 날짜: 2025-01-31
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250131
Updated
EFA 버전을 1.37.0에서 1.38.0으로 업그레이드
EFA는 이제 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.
Nvidia 컨테이너 툴킷을 1.17.3에서 1.17.4로 업그레이드했습니다.
릴리스 날짜: 2025-01-17
AMI 이름: Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 22.04) 20250117
Updated
2025년 1월 NVIDIA GPU 디스플레이 드라이버 보안 공지에 있는 CVEs를 해결하기 위해 Nvidia 드라이버를 버전 550.127.05에서 550.144.03로 업그레이드했습니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5614
릴리스 날짜: 2024-11-18
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20241115
추가됨
Lustre용 Amazon FSx 패키지 지원이 추가되었습니다.
고정
-
커널 주소 공간 레이아웃 무작위화(KASLR) 기능의 결함을 해결하기 위해 Ubuntu 커널이 변경되었으므로 G4Dn/G5 인스턴스는 OSS Nvidia 드라이버에서 CUDA를 올바르게 초기화할 수 없습니다. 이 문제를 완화하기 위해이 DLAMI에는 G4Dn 및 G5 인스턴스용 독점 드라이버를 동적으로 로드하는 기능이 포함되어 있습니다. 인스턴스가 제대로 작동할 수 있도록이 로드에 짧은 초기화 기간을 허용하십시오.
이 서비스의 상태와 상태를 확인하려면 다음 명령을 사용할 수 있습니다.
sudo systemctl is-active dynamic_driver_load.service
active
릴리스 날짜: 2024-10-23
AMI 이름: Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 22.04) 20241023
Updated
2024년 550.90.070월 NVIDIA GPU 디스플레이 보안 공지에 있는 CVEs를 해결하기 위해 Nvidia 드라이버를 버전에서 550.127.05로 업그레이드했습니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5586
릴리스 날짜: 2024-10-01
AMI 이름: Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 20.04) 20240930
Updated
버전 535.183.01에서 550.90.07로 Nvidia 드라이버 및 Fabric Manager 업그레이드
보안 취약성 CVE-2024-0133
을 해결하여 Nvidia 컨테이너 툴킷을 버전 1.16.1에서 1.16.2로 업그레이드했습니다. EFA 버전을 1.32.0에서 1.34.0으로 업그레이드
모든 CUDA 버전에 대해 NCCL을 최신 버전 2.22.3으로 업그레이드
2.18.5+CUDA12.2에서 업그레이드된 CUDA12.2
버전 2.21.5+CUDA12.4에서 업그레이드된 CUDA12.3
추가됨
디렉터리 /usr/local/cuda-12.4에 CUDA 툴킷 버전 12.4 추가
P5e EC2 인스턴스에 대한 지원이 추가되었습니다.
릴리스 날짜: 2024-08-19
AMI 이름: Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 22.04) 20240816
추가됨
G6e EC2 인스턴스
에 대한 지원이 추가되었습니다.
릴리스 날짜: 2024-06-06
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20240606
Updated
Nvidia 드라이버 버전을 535.183.01에서 535.161.08로 업데이트했습니다.
릴리스 날짜: 2024-05-15
AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20240513
제거됨
최신 Ubuntu 22.04 커널 버전과의 비호환성으로 인해이 릴리스에서는 Amazon FSx for Lustre 지원이 제거되었습니다. 최신 커널 버전이 지원되면 FSx for Lustre에 대한 지원이 복원됩니다. FSx for Lustre가 필요한 고객은 Deep Learning Base GPU AMI(Ubuntu 20.04)
를 계속 사용해야 합니다.
릴리스 날짜: 2024-04-29
AMI 이름: Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 22.04) 20240429
추가됨
Ubuntu 22.04용 딥 러닝 기반 OSS DLAMI의 최초 릴리스