기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Deep Learning AMI GPU PyTorch 2.6(Amazon Linux 2023)
시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.
AMI 이름 형식
Deep Learning OSS NVIDIA 드라이버 AMI GPU PyTorch 2.6.0(Amazon Linux 2023) ${YYYY-MM-DD}
지원되는 EC2 인스턴스:
OSS를 사용한 딥 러닝 NVIDIA 드라이버에서 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en 지원
AMI에는 다음이 포함됩니다.
지원되는 AWS 서비스: EC2
운영 체제: Amazon Linux 2023
컴퓨팅 아키텍처: x86
NVIDIA CUDA12.6 스택:
CUDA, NCCL 및 cuDDN 설치 경로: /usr/local/cuda-12.6/
-
기본 CUDA:12.6
PATH /usr/local/cudapoints에서 /usr/local/cuda-12.6/로
-
아래 env vars가 업데이트되었습니다.
LD_LIBRARY_PATH: /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
PATH에 /usr/local/cuda/bin/:/usr/local/cuda/include/
12.6용 컴파일된 NCCL 버전: 2.24.3
NCCL 테스트 위치:
all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
-
NCCL 테스트를 실행하기 위해 LD_LIBRARY_PATH는 이미 필요한 경로로 업데이트되어 있습니다.
공통 PATHs는 LD_LIBRARY_PATH에 이미 추가되었습니다.
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
LD_LIBRARY_PATH가 CUDA 버전 경로로 업데이트됨
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
EFA 설치 관리자: 1.38.0
Nvidia GDRCopy:2.4.1
AWS OFI NCCL: 1.13.2-aws
AWS OFI NCCL은 이제 단일 빌드로 여러 NCCL 버전을 지원합니다.
설치 경로:/opt/amazon/ofi-nccl/ . /opt/amazon/ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됩니다.
Python 버전:3.12
Python: /opt/pytorch/bin/python
NVIDIA 드라이버:570.86.15
AWS CLI v2at /usr/bin/aws
EBS 볼륨 유형: gp3
NVMe 인스턴스 스토어 위치(지원되는 EC2 인스턴스):/opt/dlami/nvme
SSM 파라미터를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):
OSS Nvidia 드라이버:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
고지 사항
Anaconda 채널의 PyTorch 사용 중단
PyTorch 2.6부터 PyTorch는 Conda에 대한 지원을 중단했습니다(공식 발표
DeviceIndex는 각 NetworkCard에 고유하며 NetworkCard당 ENIs 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENIs 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다. 다음은 번호 0~31의 NetworkCardIndex와 첫 번째 인터페이스의 경우 DeviceIndex를 0으로, 나머지 31 인터페이스의 경우 DeviceIndex를 1로 보여주는 awscli를 사용하는 EC2 P5 인스턴스 시작 명령의 예입니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
커널
커널 버전은 명령을 사용하여 고정됩니다.
sudo dnf versionlock kernel*
설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.
sudo dnf versionlock delete kernel* sudo dnf update -y
DLAMI의 새 버전마다 사용 가능한 최신 호환 커널이 사용됩니다.
릴리스 날짜: 2025-02-21
AMI 이름: Deep Learning OSS Nvidia 드라이버 AMI GPU PyTorch 2.6.0(Amazon Linux 2023) 20250220
추가됨
Amazon Linux 2023용 Deep Learning OSS Nvidia 드라이버 AMI GPU PyTorch 2.6 최초 릴리스
PyTorch2.6,부터 Pytorch는 Conda에 대한 지원을 중단했습니다. 따라서 Pytorch 2.6 이상은 Python 가상 환경을 사용하여 로 이동합니다. pytorch venv를 활성화하려면 source /opt/pytorch/bin/activate를 사용하세요.