AWS Deep Learning AMI GPU PyTorch 2.4(Ubuntu 22.04) - AWS Deep Learning AMIs

AWS Deep Learning AMI GPU PyTorch 2.4(Ubuntu 22.04)

시작하기에 관한 도움말은 DLAMI 시작하기 섹션을 참조하세요.

AMI 이름 형식

  • Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.${PATCH_VERSION}(Ubuntu 22.04) ${YYYY-MM-DD}

지원되는 EC2 인스턴스

  • 중요 DLAMI 변경 사항을 참조하세요.

  • OSS Nvidia 드라이버를 사용하는 딥 러닝은 G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en을 지원합니다.

AMI에는 다음이 포함됩니다.

  • 지원되는 AWS 서비스: EC2

  • 운영 체제: Ubuntu 22.04

  • 컴퓨팅 아키텍처: x86

  • Python: /opt/conda/envs/pytorch/bin/python

  • NVIDIA 드라이버:

    • OSS Nvidia 드라이버: 550.144.03

  • NVIDIA CUDA12.1 스택:

    • CUDA, NCCL 및 cuDDN 설치 경로: /usr/local/cuda-12.4/

    • 기본 CUDA: 12.4

      • PATH /usr/local/cuda는 /usr/local/cuda-12.4/를 가리킵니다.

      • 아래 env vars가 업데이트되었습니다.

        • LD_LIBRARY_PATH: /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib

        • PATH: /usr/local/cuda/bin/:/usr/local/cuda/include/

    • /usr/local/cuda/에 있는 컴파일된 시스템 NCCL 버전: 2.21.5

    • PyTorch conda 환경에서 컴파일된 PyTorch NCCL 버전: 2.20.5

  • NCCL 테스트 위치:

    • all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

    • NCCL 테스트를 실행하기 위해 LD_LIBRARY_PATH는 이미 필요한 경로로 업데이트되어 있습니다.

      • 공통 PATH가 다음 LD_LIBRARY_PATH에 이미 추가됨:

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH가 CUDA 버전 경로로 업데이트됨

      • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • EFA 설치 관리자: 1.34.0

  • Nvidia GDRCopy: 2.4.1

  • Nvidia 트랜스포머 엔진: v1.11.0

  • AWS OFI NCCL 플러그인: EFA Installer-aws의 일부로 설치됨

    • 설치 경로: /opt/aws-ofi-nccl/ . /opt/aws-ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됩니다.

    • 링, message_transfer에 대한 테스트 경로: /opt/aws-ofi-nccl/tests

    • 참고: PyTorch 패키지에는 conda 패키지 aws-ofi-nccl-dlc 패키지로 동적으로 연결된 AWS OFI NCCL 플러그인이 함께 제공되며, PyTorch는 시스템 AWS OFI NCCL 대신 해당 패키지를 사용합니다.

  • AWS CLI v2를 aws2로, AWS CLI v1을 aws로

  • EBS 볼륨 유형: gp3

  • Python 버전: 3.11

  • SSM 파라미터를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AWSCLI를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

고지 사항

P5/P5e 인스턴스
  • DeviceIndex는 각 NetworkCard에 고유하며, NetworkCard당 ENI의 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENI의 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다. 다음은 awscli를 사용하는 EC2 P5 인스턴스 시작 명령의 예입니다. NetworkCardIndex가 번호 0~31이며 첫 번째 인터페이스의 경우 DeviceIndex는 0, 나머지 31개 인터페이스의 경우 DeviceIndex는 1로 설정됩니다.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

릴리스 날짜: 2025-02-17

AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20250216

업데이트
  • NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.

릴리스 날짜: 2025-01-21

AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20250119

업데이트

릴리스 날짜: 2024-11-18

AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20241116

고정
  • 커널 주소 공간 레이아웃 무작위화(KASLR) 기능의 결함을 해결하기 위해 Ubuntu 커널이 변경되었으므로, G4Dn/G5 인스턴스는 OSS Nvidia 드라이버에서 CUDA를 올바르게 초기화할 수 없습니다. 이 문제를 완화하기 위해 이 DLAMI에는 G4Dn 및 G5 인스턴스용 독점 드라이버를 동적으로 로드하는 기능이 포함되어 있습니다. 인스턴스가 제대로 작동할 수 있도록 하기 위해 해당 로드 작업에 초기화 기간이 잠시 소요될 수 있습니다.

    • 이 서비스의 상태를 확인하기 위해 다음 명령을 사용할 수 있습니다.

sudo systemctl is-active dynamic_driver_load.service active

릴리스 날짜: 2024-10-16

AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20241016

추가됨

릴리스 날짜: 2024-09-30

AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20240929

업데이트
  • Nvidia Container Toolkit을 버전 1.16.1에서 1.16.2로 업그레이드하여 보안 취약성 CVE-2024-0133을 해결했습니다.

릴리스 날짜: 2024-09-26

AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20240925

추가됨
  • Deep Learning AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 시리즈의 최초 릴리스. NVIDIA 드라이버 R550, CUDA=12.4.1, cuDNN=8.9.7, PyTorch NCCL=2.20.5 및 EFA=1.34.0으로 보완된 conda 환경 pytorch를 포함합니다.