기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Deep Learning OSS AMI GPU PyTorch 2.7(Amazon Linux 2023)
시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.
AMI 이름 형식
Deep Learning OSS Nvidia 드라이버 AMI GPU PyTorch 2.7(Amazon Linux 2023) ${YYYY-MM-DD}
지원되는 EC2 인스턴스
DLAMI에 대한 중요 변경 사항을 참조하세요.
G4dn, G5, G5, Gr6, P4, P4de, P5, P5e, P5en, P6-B200
AMI에는 다음이 포함됩니다.
지원되는 AWS 서비스: Amazon EC2
운영 체제: Amazon Linux 2023
컴퓨팅 아키텍처: x86
Linux 커널: 6.1
NVIDIA 드라이버: 570.133.20
NVIDIA CUDA 12.8 스택:
CUDA, NCCL 및 cuDDN 설치 디렉터리: /usr/local/cuda-12.8/
NCCL 테스트 위치:
all_reduce, all_gather 및 reduce_scatter:
/usr/local/cuda-12.8/efa/test-cuda-12.8/
NCCL 테스트를 실행하기 위해 LD_LIBRARY_PATH가 이미 필요한 경로로 업데이트되었습니다.
공통 PATHs는 LD_LIBRARY_PATH에 이미 추가되었습니다.
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
LD_LIBRARY_PAT가 CUDA 버전 경로로 업데이트되었습니다.
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
컴파일된 NCCL 버전:
12.8의 CUDA 디렉터리의 경우 컴파일된 NCCL 버전 2.26.2+CUDA12.8
기본 CUDA: 12.8
PATH /usr/local/cuda는 CUDA 12.8을 가리킵니다.
-
아래 env vars가 업데이트되었습니다.
LD_LIBRARY_PATH: /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib
PATH에 /usr/local/cuda/bin/:/usr/local/cuda/include/
EFA 설치 관리자: 1.40.0
Nvidia GDRCopy: 2.5
AWS OFI NCCL: 1.14.2-aws
설치 경로: /opt/amazon/ofi-nccl/. /opt/amazon/ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됨
/usr/local/bin/aws의 AWS CLI v2
EBS 볼륨 유형: gp3
Nvidia 컨테이너 툴킷: 1.17.7
버전 명령: nvidia-container-cli -V
Docker: 25.0.8
Python: /usr/bin/python3.12
SSM 파라미터를 사용하여 AMI-ID 쿼리(예제 리전은 us-east-1):
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output textAWSCLI를 사용하여 AMI-ID 쿼리(예제 리전은 us-east-1):
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
고지 사항
P6-B200 인스턴스
P6-B200 인스턴스에는 CUDA 버전 12.8 이상 및 NVIDIA 드라이버 570 이상이 필요합니다.
P6-B200에는 8개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... .... .... "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e 인스턴스
DeviceIndex는 각 NetworkCard에 고유하며 NetworkCard당 ENIs 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENIs 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다. 다음은 번호 0~31의 경우 NetworkCardIndex를, 첫 번째 인터페이스의 경우 DeviceIndex를 0으로, 나머지 31개의 인터페이스의 경우 1로 보여주는 awscli를 사용하는 EC2 P5 인스턴스 시작 명령의 예입니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... .... .... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
커널
커널 버전은 명령을 사용하여 고정됩니다.
sudo dnf versionlock kernel*
설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.
sudo dnf versionlock delete kernel* sudo dnf update -y
DLAMI의 새 버전마다 사용 가능한 최신 호환 커널이 사용됩니다.
Anaconda 채널의 PyTorch 사용 중단
PyTorch 2.6부터 PyTorch는 Conda에 대한 지원을 중단했습니다(공식 발표
릴리스 날짜: 2025-05-22
AMI 이름: Deep Learning OSS Nvidia 드라이버 AMI GPU PyTorch 2.7(Amazon Linux 2023) 20250520
추가됨
Deep Learning AMI GPU PyTorch 2.7(Amazon Linux 2023) 시리즈의 최초 릴리스입니다. NVIDIA 드라이버 R570, CUDA=12.8, cuDNN=9.10, PyTorch NCCL=2.26.2 및 EFA=1.40.0으로 보완된 Python 가상 환경 pytorch(소스 /opt/pytorch/bin/activate)를 포함합니다.