AWS Deep Learning ARM64 기본 GPU AMI(Ubuntu 22.04) - AWS Deep Learning AMIs

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Deep Learning ARM64 기본 GPU AMI(Ubuntu 22.04)

시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.

AMI 이름 형식

  • Deep Learning ARM64 Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 22.04) ${YYYY-MM-DD}

지원되는 EC2 인스턴스

  • G5g, P6e-GB200(CUDA>=12.8은 P6e-GB200에서 지원됨)

AMI에는 다음이 포함됩니다.

  • 지원되는 AWS 서비스: Amazon EC2

  • 운영 체제: Ubuntu 22.04

  • 컴퓨팅 아키텍처: ARM64

  • 다음 패키지에 사용할 수 있는 최신 버전이 설치됩니다.

    • Linux 커널: 6.8

    • FSx Lustre

    • Docker

    • /usr/bin/aws의 AWS CLI v2

    • NVIDIA DCGM

    • Nvidia 컨테이너 툴킷:

      • 버전 명령: nvidia-container-cli -V

    • Nvidia-docker2:

      • 버전 명령: nvidia-docker 버전

  • NVIDIA 드라이버: 570.158.01

  • NVIDIA CUDA 12.4, 12.5, 12.6, 12.8 스택:

    • CUDA, NCCL 및 cuDDN 설치 디렉터리: /usr/local/cuda-xx.x/

      • 예: /usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • 컴파일된 NCCL 버전:

      • 12.4의 CUDA 디렉터리의 경우 컴파일된 NCCL 버전 2.22.3+CUDA12.4

      • 12.5의 CUDA 디렉터리의 경우 컴파일된 NCCL 버전 2.22.3+CUDA12.5

      • 12.6의 CUDA 디렉터리의 경우 컴파일된 NCCL 버전 2.24.3+CUDA12.6

      • 12.8의 CUDA 디렉터리의 경우 컴파일된 NCCL 버전 2.27.5+CUDA12.8

    • 기본 CUDA: 12.8

      • PATH /usr/local/cuda는 CUDA 12.8을 가리킵니다.

      • 아래 env vars가 업데이트되었습니다.

        • LD_LIBRARY_PATH: have /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATH에 /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • 다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.

  • EFA 설치 관리자: 1.42.0

  • Nvidia GDRCopy: 2.5.1

  • AWS OFI NCCL 플러그인은 EFA 설치 프로그램과 함께 제공됩니다.

    • /opt/amazon/ofi-nccl/lib 및 /opt/amazon/ofi-nccl/efa 경로가 LD_LIBRARY_PATH에 추가됩니다.

  • /usr/local/bin/awsAWS CLI 2의 v2와 /usr/bin/aws AWS CLI v1

  • EBS 볼륨 유형: gp3

  • Python: /usr/bin/python3.10

  • SSM 파라미터를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • AWSCLI를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):

    aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
P6e-GB200 인스턴스

P6e-GB200 인스턴스에는 17개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

고지 사항

NVIDIA 컨테이너 툴킷 1.17.4

Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서에 표시된 대로 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.

다중 ENI 지원
  • Ubuntu 22.04는 초기 부팅 시 cloud-init를 통해 여러 NICs에서 소스 라우팅을 자동으로 설정하고 구성합니다. 워크플로에 인스턴스가 중지된 동안 ENI의 연결/분리가 포함된 경우 이러한 이벤트 중에 NIC의 적절한 구성을 보장하기 위해 cloud-init 사용자 데이터에 추가 구성을 추가해야 합니다. 클라우드 구성의 샘플이 아래에 나와 있습니다.

  • 인스턴스에 대한 클라우드 구성을 구성하는 방법에 대한 자세한 내용은 여기에서이 정식 설명서를 참조하세요. - https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automatically-setup-multiple-nics/

#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']

지원 정책

CUDA 버전과 같은이 AMIs의 이러한 AMI 구성 요소는 프레임워크 지원 정책에 따라 또는 딥 러닝 컨테이너의 성능을 최적화하거나 향후 릴리스에서 AMI 크기를 줄이기 위해 사전 공지 없이 제거 및 변경할 수 있습니다. 지원되는 프레임워크 버전에서 CUDA 버전을 사용하지 않는 경우 AMIs에서 CUDA 버전을 제거합니다.

커널
  • 커널 버전은 명령을 사용하여 고정됩니다.

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • 설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • DLAMI의 각 새 버전에 대해 사용 가능한 최신 호환 커널이 사용됩니다.

릴리스 날짜: 2025-07-04

AMI 이름: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250704

Updated

  • EC2 인스턴스 P6e-GB200에 대한 지원이 추가되었습니다. CUDA>=12.8은 P6e-GB200에서 지원됩니다.

  • EFA 1.42.0 추가

  • 버전 570.133.20에서 570.158.01로 Nvidia 드라이버 업그레이드

  • NCCL 2.27.5로 CUDA 12.8 스택 업그레이드

릴리스 날짜: 2025-04-24

AMI 이름: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250424

Updated

  • 2025년 4월 NVIDIA GPU 디스플레이 드라이버 보안 공지에 있는 CVE를 해결하기 위해 Nvidia 드라이버를 버전 570.86.15에서 570.133.20로 업그레이드했습니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5630

  • NCCL 2.26.2로 CUDA 12.8 스택 업데이트

  • 기본 CUDA를 12.6에서 12.8로 업데이트했습니다.

  • CUDA 12.3 제거

릴리스 날짜: 2025-03-03

AMI 이름: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250303

Updated

  • 550.144.03에서 570.86.15까지의 Nvidia 드라이버

  • 기본 CUDA가 CUDA12.1에서 CUDA12.6으로 변경되었습니다.

추가됨

  • 컴파일된 NCCL 버전 2.22.3+CUDA12.4 및 CuDNN 9.7.1.26이 포함된 1CUDA12 디렉터리

  • 컴파일된 NCCL 버전 2.22.3+CUDA12.5 및 CuDNN 9.7.1.26이 포함된 1CUDA12 디렉터리

  • 컴파일된 NCCL 버전 2.24.3+CUDA12.6 및 CuDNN 9.7.1.26이 포함된 1CUDA12 디렉터리

  • 컴파일된 NCCL 버전 2.25.1+CUDA12.8 및 CuDNN 9.7.1.26이 포함된 CUDA12 디렉터리

제거됨

  • 12.1 및 12.2의 CUDA 디렉터리

릴리스 날짜: 2025-02-17

AMI 이름: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250214

Updated

  • NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.

    • 자세한 내용은 여기에서 릴리스 정보 페이지를 참조하세요.https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4

    • Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서에 표시된 대로 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.

제거됨

릴리스 날짜: 2025-01-17

AMI 이름: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20250117

Updated

릴리스 날짜: 2024-10-23

AMI 이름: Deep Learning ARM64 Base OSS Nvidia 드라이버 GPU AMI(Ubuntu 22.04) 20241023

Updated

릴리스 날짜: 2024-06-06

AMI 이름: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20240606

Updated

  • Nvidia 드라이버 버전을 535.183.01에서 535.161.08로 업데이트했습니다.

릴리스 날짜: 2024-05-15

AMI 이름: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI(Ubuntu 22.04) 20240514

추가됨

  • Ubuntu 22.04용 Deep Learning ARM64 Base OSS DLAMI의 최초 릴리스