기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Deep Learning AMI GPU PyTorch 2.5(Ubuntu 22.04)
시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.
AMI 이름 형식
Deep Learning OSS Nvidia 드라이버 AMI GPU PyTorch 2.5.${PATCH_VERSION}(Ubuntu 22.04) ${YYYY-MM-DD}
지원되는 EC2 인스턴스
DLAMI에 대한 중요 변경 사항을 참조하세요.
OSS Nvidia 드라이버를 사용한 딥 러닝은 G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en을 지원합니다.
AMI에는 다음이 포함됩니다.
지원되는 AWS 서비스: Amazon EC2
운영 체제: Ubuntu 22.04
컴퓨팅 아키텍처: x86
Python: /opt/conda/envs/pytorch/bin/python
NVIDIA 드라이버:
OSS Nvidia 드라이버: 550.144.03
NVIDIA CUDA12.4 스택:
CUDA, NCCL 및 cuDDN 설치 경로: /usr/local/cuda-12.4/
-
기본 CUDA: 12.4
PATH /usr/local/cuda는 /usr/local/cuda-12.4/를 가리킵니다.
-
아래 env vars가 업데이트되었습니다.
LD_LIBRARY_PATH: /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
PATH에 /usr/local/cuda/bin/:/usr/local/cuda/include/
/usr/local/cuda/: 2.21.5에 있는 컴파일된 시스템 NCCL 버전
PyTorch conda 환경의 PyTorch 컴파일 NCCL 버전: 2.21.5
NCCL 테스트 위치:
all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
-
NCCL 테스트를 실행하기 위해 LD_LIBRARY_PATH는 이미 필요한 경로로 업데이트되어 있습니다.
공통 PATHs는 LD_LIBRARY_PATH에 이미 추가되었습니다.
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
LD_LIBRARY_PATH가 CUDA 버전 경로로 업데이트됨
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
EFA 설치 관리자: 1.34.0
Nvidia GDRCopy: 2.4.1
Nvidia 변환기 엔진: v1.11.0
AWS OFI NCCL: 1.11.0-aws
설치 경로: /opt/aws-ofi-nccl/ . /opt/aws-ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됩니다.
링, message_transfer에 대한 테스트 경로: /opt/aws-ofi-nccl/tests
참고: PyTorch 패키지에는 conda 패키지 aws-ofi-nccl-dlc 패키지로 동적으로 연결된 AWS OFI NCCL 플러그인이 함께 제공되며 PyTorch는 시스템 AWS OFI NCCL 대신 해당 패키지를 사용합니다.
AWS CLI v2를 aws2로, AWS CLI v1을 aws로
EBS 볼륨 유형: gp3
Python 버전: 3.11
SSM 파라미터를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
고지 사항
P5/P5e 인스턴스:
DeviceIndex는 각 NetworkCard에 고유하며 NetworkCard당 ENIs 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENIs 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다. 다음은 번호 0~31의 NetworkCardIndex와 첫 번째 인터페이스의 경우 DeviceIndex를 0으로, 나머지 31 인터페이스의 경우 DeviceIndex를 1로 보여주는 awscli를 사용하는 EC2 P5 인스턴스 시작 명령의 예입니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
커널
커널 버전은 명령을 사용하여 고정됩니다.
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.
echo linux-aws install | sudo dpkg —set-selections echo linux-headers-aws install | sudo dpkg —set-selections echo linux-image-aws install | sudo dpkg —set-selections apt-get upgrade -y
DLAMI의 새 버전마다 사용 가능한 최신 호환 커널이 사용됩니다.
릴리스 날짜: 2025-02-17
AMI 이름: Deep Learning OSS Nvidia 드라이버 AMI GPU PyTorch 2.5.1(Ubuntu 22.04) 20250216
Updated
NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.
자세한 내용은 여기에서 릴리스 정보 페이지를 참조하세요.https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서와 같이 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.
제거됨
2025년 2월 18일 NVIDIA
CUDA 도구 키트 보안 공지에 있는 CVE를 해결하기 위해 NVIDIA CUDA 도구 키트 에서 제공하는 사용자 공간 라이브러리 cuobj 및 nvdisasm 제거 CVEs
릴리스 날짜: 2025-01-21
AMI 이름: Deep Learning OSS Nvidia 드라이버 AMI GPU PyTorch 2.5.1(Ubuntu 22.04) 20250119
Updated
2025년 1월 NVIDIA GPU 디스플레이 드라이버 보안 공지에 있는 CVEs를 해결하기 위해 Nvidia 드라이버를 버전 550.127.05에서 550.144.03로 업그레이드했습니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5614
릴리스 날짜: 2024-11-21
AMI 이름: Deep Learning OSS Nvidia 드라이버 AMI GPU PyTorch 2.5.1(Ubuntu 22.04) 20241121
추가됨
Deep Learning AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 시리즈의 최초 릴리스입니다. NVIDIA 드라이버 R550, CUDA=12.4.1, cuDNN=8.9.7, PyTorch NCCL=2.21.5 및 EFA=1.37.0으로 보완된 conda 환경 pytorch 포함.
고정
커널 주소 공간 레이아웃 무작위화(KASLR) 기능의 결함을 해결하기 위해 Ubuntu 커널이 변경되어 G4Dn/G5 인스턴스가 OSS Nvidia 드라이버에서 CUDA를 올바르게 초기화할 수 없습니다. 이 문제를 완화하기 위해이 DLAMI에는 G4Dn 및 G5 인스턴스용 독점 드라이버를 동적으로 로드하는 기능이 포함되어 있습니다. 인스턴스가 제대로 작동할 수 있도록이 로드에 짧은 초기화 기간을 허용하십시오.
이 서비스의 상태와 상태를 확인하려면 다음 명령을 사용할 수 있습니다.
sudo systemctl is-active dynamic_driver_load.service
active