AWS Deep Learning Base GPU AMI(Amazon Linux 2023) - AWS Deep Learning AMIs

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Deep Learning Base GPU AMI(Amazon Linux 2023)

시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.

AMI 이름 형식

  • Deep Learning Base OSS Nvidia 드라이버 GPU AMI(Amazon Linux 2023) ${YYYY-MM-DD}

지원되는 EC2 인스턴스

  • DLAMI에 대한 중요 변경 사항을 참조하세요.

  • OSS Nvidia 드라이버를 사용한 딥 러닝은 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200을 지원합니다.

AMI에는 다음이 포함됩니다.

  • 지원되는 AWS 서비스: Amazon EC2

  • 운영 체제: Amazon Linux 2023

  • 컴퓨팅 아키텍처: x86

  • 다음 패키지에 사용할 수 있는 최신 버전이 설치됩니다.

    • Linux 커널: 6.1

    • FSx Lustre

    • NVIDIA GDS

    • Docker

    • /usr/local/bin/awsAWS CLI 2의 v2와 /usr/bin/aws의 AWS CLI v1

    • NVIDIA DCGM

    • Nvidia 컨테이너 툴킷:

      • 버전 명령: nvidia-container-cli -V

    • Nvidia-docker2:

      • 버전 명령: nvidia-docker 버전

  • NVIDIA 드라이버: 570.133.20

  • NVIDIA CUDA12.4-12.6 및 12.8 스택:

    • CUDA, NCCL 및 cuDDN 설치 디렉터리: /usr/local/cuda-xx.x/

      • 예: /usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • 컴파일된 NCCL 버전: 2.26.5

    • 기본 CUDA: 12.8

      • PATH /usr/local/cuda는 CUDA 12.8을 가리킵니다.

      • 아래 env vars가 업데이트되었습니다.

        • LD_LIBRARY_PATH: /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib

        • PATH에 /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • 다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.

  • EFA 설치 관리자: 1.40.0

  • Nvidia GDRCopy: 2.5

  • AWS OFI NCCL: 1.14.2-aws

    • AWS OFI NCCL은 이제 단일 빌드로 여러 NCCL 버전을 지원합니다.

    • 설치 경로: /opt/amazon/ofi-nccl/ . /opt/amazon/ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됩니다.

  • /usr/local/bin/awsAWS CLI 2의 v2와 /usr/bin/aws AWS CLI v1

  • EBS 볼륨 유형: gp3

  • Python: /usr/bin/python3.9

  • NVMe 인스턴스 스토어 위치(지원되는 EC2 인스턴스): /opt/dlami/nvme

  • SSM 파라미터를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
  • AWSCLI를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

고지 사항

NVIDIA 컨테이너 툴킷 1.17.4

Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서에 표시된 대로 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.

지원 정책

CUDA 버전과 같은이 AMIs의 이러한 AMI 구성 요소는 프레임워크 지원 정책에 따라 또는 딥 러닝 컨테이너의 성능을 최적화하거나 향후 릴리스에서 AMI 크기를 줄이기 위해 사전 통지 없이 제거 및 변경할 수 있습니다. 지원되는 프레임워크 버전에서 CUDA 버전을 사용하지 않는 경우 AMIs에서 CUDA 버전을 제거합니다.

P6-B200 인스턴스

P6-B200 인스턴스에는 8개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 인스턴스

P5en 인스턴스에는 16개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e 인스턴스

P5 및 P5e 인스턴스에는 32개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
커널
  • 커널 버전은 명령을 사용하여 고정됩니다.

    sudo dnf versionlock kernel*
  • 설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • DLAMI의 새 버전마다 사용 가능한 최신 호환 커널이 사용됩니다.

릴리스 날짜: 2025-05-15

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20250515

추가됨

Updated

  • 버전 1.38.1에서 1.40.0으로 EFA 설치 관리자 업그레이드

  • 버전 2.4에서 2.5로 GDRCopy 업그레이드

  • AWS OFI NCCL 플러그인을 버전 1.13.0-aws에서 1.14.2-aws로 업그레이드했습니다.

  • 컴파일된 NCCL 버전을 버전 2.25.1에서 2.26.5로 업데이트

  • 기본 CUDA 버전을 버전 12.6에서 12.8로 업데이트했습니다.

  • Nvidia DCGM 버전을 3.3.9에서 4.4.3으로 업데이트했습니다.

릴리스 날짜: 2025-04-22

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20250421

Updated

릴리스 날짜: 2025-03-31

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20250328

추가됨

릴리스 날짜: 2025-02-17

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20250215

Updated

  • NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.

    • 자세한 내용은 https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4 릴리스 정보 페이지를 참조하세요.

    • Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서와 같이 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.

제거됨

릴리스 날짜: 2025-02-05

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20250205

추가됨

  • 디렉터리 /usr/local/cuda-12.6에 CUDA 도구 키트 버전 12.6 추가

  • G5 EC2 인스턴스에 대한 지원 추가

제거됨

  • CUDA 버전 12.1 및 12.2가이 DLAMI에서 제거되었습니다. 이러한 CUDA 툴킷 버전이 필요한 고객은 아래 링크를 사용하여 NVIDIA에서 직접 설치할 수 있습니다.

릴리스 날짜: 2025-02-03

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20250131

Updated

  • EFA 버전을 1.37.0에서 1.38.0으로 업그레이드

    • 이제 EFA는 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.

  • Nvidia 컨테이너 툴킷을 1.17.3에서 1.17.4로 업그레이드했습니다.

릴리스 날짜: 2025-01-08

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20250107

Updated

릴리스 날짜: 2024-12-09

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20241206

Updated

  • Nvidia 컨테이너 도구 키트를 버전 1.17.0에서 1.17.3으로 업그레이드했습니다.

릴리스 날짜: 2024-11-21

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20241121

추가됨

  • P5en EC2 인스턴스에 대한 지원이 추가되었습니다.

Updated

  • 버전 1.35.0에서 1.37.0으로 EFA 설치 관리자 업그레이드

  • AWS OFI NCCL 플러그인을 버전 1.121-aws에서 1.13.0-aws로 업그레이드

릴리스 날짜: 2024-10-30

AMI 이름: Deep Learning Base OSS Nvidia Driver GPU AMI(Amazon Linux 2023) 20241030

추가됨

  • Amazon Linux 2023용 딥 러닝 기반 OSS DLAMI의 최초 릴리스

알려진 문제

  • 이 DLAMI는 현재 G4dn 및 G5 EC2 인스턴스를 지원하지 않습니다. AWS 는 CUDA 초기화 실패를 초래할 수 있는 비호환성을 인식하여 Linux 커널 버전 6.1 이상과 함께 오픈 소스 NVIDIA 드라이버를 사용할 때 G4dn 및 G5 인스턴스 패밀리 모두에 영향을 미칩니다. 이 문제는 Amazon Linux 2023, Ubuntu 22.04 이상 또는 SUSE Linux Enterprise Server 15 SP6 이상과 같은 Linux 배포판에 영향을 미칩니다.