AWS Deep Learning Base AMI(Amazon Linux 2) - AWS Deep Learning AMIs

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Deep Learning Base AMI(Amazon Linux 2)

시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.

AMI 이름 형식

  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 ${XX.X}

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 ${XX.X}

지원되는 EC2 인스턴스

AMI에는 다음이 포함됩니다.

  • 지원되는 AWS 서비스: Amazon EC2

  • 운영 체제: Amazon Linux 2

  • 컴퓨팅 아키텍처: x86

  • 다음 패키지에 사용할 수 있는 최신 버전이 설치됩니다.

    • Linux 커널: 5.10

    • Docker

    • AWS CLI v2at /usr/local/bin/aws2 및AWS CLI v1at /usr/bin/aws

    • Nvidia 컨테이너 툴킷:

      • 버전 명령: nvidia-container-cli -V

    • Nvidia-docker2:

      • 버전 명령: nvidia-docker 버전

  • Python: /usr/bin/python3.7

  • NVIDIA 드라이버:

    • OSS Nvidia 드라이버:550.163.01

    • 독점 Nvidia 드라이버:550.163.01

  • NVIDIA CUDA 12.1-12.4 스택:

    • CUDA, NCCL 및 cuDDN 설치 디렉터리: /usr/local/cuda-xx.x/

    • 기본 CUDA:12.1

      • PATH /usr/local/cudapoints toCUDA 12.1

      • 아래 env vars가 업데이트되었습니다.

        • LD_LIBRARY_PATH: /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH: /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • 다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.

    • 컴파일된 NCCL 버전: 2.22.3

    • NCCL 테스트 위치:

      • all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

      • NCCL 테스트를 실행하려면 LD_LIBRARY_PATH가 아래 업데이트를 통과해야 합니다.

        • 공통 PATHs는 LD_LIBRARY_PATH에 이미 추가되었습니다.

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.

  • EFA 설치 관리자: 1.38.0

  • Nvidia GDRCopy:2.4

  • AWS OFI NCCL: 1.13.2

    • AWS OFI NCCL은 이제 단일 빌드로 여러 NCCL 버전을 지원합니다.

    • 설치 경로:/opt/amazon/ofi-nccl/ . /opt/amazon/ofi-nccl/lib64 경로가 LD_LIBRARY_PATH에 추가됩니다.

  • EBS 볼륨 유형: gp3

  • SSM 파라미터를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • 독점 Nvidia 드라이버:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AWSCLI를 사용하여 AMI-ID 쿼리(예: 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • 독점 Nvidia 드라이버:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

고지 사항

NVIDIA 컨테이너 툴킷 1.17.4

Container Toolkit 버전 1.17.4에서는 이제 CUDA compat 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서와 같이 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.

1.37에서 1.38로 EFA 업데이트(2025-02-04 릴리스)

EFA는 이제 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.

지원 정책

CUDA 버전과 같은이 AMIs의 이러한 AMI 구성 요소는 프레임 작업 지원 정책 또는를 기반으로 제거 및 변경하여 심층 학습 컨테이너의 성능을 최적화하거나 향후 릴리스에서 AMI 크기를 줄일 수 있습니다. 지원되는 프레임워크 버전에서 CUDA 버전을 사용하지 않는 경우 AMIs에서 CUDA 버전을 제거합니다.

여러 네트워크 카드가 있는 EC2 인스턴스
  • EFA를 지원하는 많은 인스턴스 유형에는 여러 네트워크 카드도 있습니다.

  • DeviceIndex는 각 네트워크 카드마다 고유하며 NetworkCard당 ENIs 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENIs 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다.

    • 기본 네트워크 인터페이스(네트워크 카드 인덱스 0, 디바이스 인덱스 0)의 경우 EFA(EFA with ENA) 인터페이스를 생성합니다. EFA 전용 네트워크 인터페이스를 기본 네트워크 인터페이스로 사용할 수 없습니다.

    • 각 추가 네트워크 인터페이스에 대해 다음 미사용 네트워크 카드 인덱스, 디바이스 인덱스 1, ENA 대역폭 요구 사항 또는 IP 주소 공간과 같은 사용 사례에 따라 EFA(EFA with ENA) 또는 EFA 전용 네트워크 인터페이스를 사용합니다. 예제 사용 사례는 P5 인스턴스에 대한 EFA 구성을 참조하세요.

    • 자세한 내용은 EFA Guidehere를 참조하세요.

P5/P5e 인스턴스
  • P5 및 P5e 인스턴스에는 32개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 인스턴스
  • P5en에는 16개의 네트워크 인터페이스 카드가 포함되어 있으며 다음 AWS CLI 명령을 사용하여 시작할 수 있습니다.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
커널
  • 커널 버전은 명령을 사용하여 고정됩니다.

    sudo yum versionlock kernel*
  • 설치된 드라이버 및 패키지 버전과의 호환성을 보장하기 위해 커널 버전을 업데이트하지 않는 것이 좋습니다(보안 패치로 인한 경우는 제외). 여전히 업데이트하려는 사용자는 다음 명령을 실행하여 커널 버전을 고정 해제할 수 있습니다.

    sudo yum versionlock delete kernel* sudo yum update -y
  • DLAMI의 새 버전마다 사용 가능한 최신 호환 커널이 사용됩니다.

릴리스 날짜: 2025-04-22

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 69.3

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 67.0

Updated

릴리스 날짜: 2025-02-17

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 68.5

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 66.3

Updated

제거됨

릴리스 날짜: 2025-02-04

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 68.4

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 66.1

Updated

  • EFA 버전을 1.37.0에서 1.38.0으로 업그레이드

릴리스 날짜: 2025-01-17

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 68.3

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 66.0

Updated

릴리스 날짜: 2025-01-06

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 68.2

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 65.9

Updated

  • 버전 1.34.0에서 1.37.0으로 EFA 업그레이드

  • AWS OFI NCCL을 버전 1.11.0에서 1.13.0으로 업그레이드했습니다.

릴리스 날짜: 2024-12-09

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 68.1

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 65.8

Updated

  • Nvidia 컨테이너 툴킷을 버전 1.17.0에서 1.17.3으로 업그레이드했습니다.

릴리스 날짜: 2024-11-09

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 67.9

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 65.6

Updated

  • 보안 취약성 CVE-2024-0134를 해결하여 Nvidia 컨테이너 툴킷을 버전 1.16.2에서 1.17.0으로 업그레이드했습니다.

릴리스 날짜: 2024-10-22

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 67.7

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 65.4

Updated

릴리스 날짜: 2024-10-03

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 65.2

Updated

  • 보안 취약성 CVE-2024-0133을 해결하여 Nvidia 컨테이너 툴킷을 버전 1.16.1에서 1.16.2로 업그레이드했습니다.

릴리스 날짜: 2024-08-27

AMI 이름: Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 67.0

Updated

  • 버전 535.183.01에서 550.90.07로 Nvidia 드라이버 및 Fabric Manager 업그레이드

    • Nvidia 권장 사항에 따라 Fabric Manager에서 다중 사용자 쉘 요구 사항 제거

    • 자세한 내용은 여기에서 Tesla 드라이버 550.90.07에 대해 알려진 문제를 참조하세요.

  • EFA 버전을 1.32.0에서 1.34.0으로 업그레이드

  • 모든 CUDA 버전에 대해 NCCL을 최신 버전 2.22.3으로 업그레이드

    • 2.18.5+CUDA12.2에서 업그레이드된 CUDA12.2

    • 2.21.5+CUDA12.4에서 업그레이드된 CUDA12.3

추가됨

  • 디렉터리 /usr/local/cuda-12.4에 CUDA 툴킷 버전 12.4 추가

  • P5e EC2 인스턴스에 대한 지원이 추가되었습니다.

제거됨

  • 디렉터리 /usr/local/cuda-11.8에 있는 CUDA Toolkit 버전 11.8 스택 제거

릴리스 날짜: 2024-08-19

AMI 이름: Deep Learning Base OSS Nvidia Driver AMI(Amazon Linux 2) 버전 66.3

추가됨

  • G6e EC2 인스턴스에 대한 지원이 추가되었습니다.

릴리스 날짜: 2024-06-06

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 65.4

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 63.9

Updated

  • Nvidia 드라이버 버전을 535.183.01에서 535.161.08로 업데이트했습니다.

릴리스 날짜: 2024-05-02

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 64.7

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 63.2

Updated

  • EFA 버전을 버전 1.30에서 버전 1.32로 업데이트했습니다.

  • AWS OFI NCCL 플러그인을 버전 1.7.4에서 버전 1.9.1로 업데이트했습니다.

  • Nvidia 컨테이너 툴킷을 버전 1.13.5에서 버전 1.15.0으로 업데이트했습니다.

추가됨

제거됨

  • /usrCUDA11/local/cuda-CUDA1211.7, usr/local/cuda-12.0 스택 제거usr/local/cuda-11

  • nvidia-docker2 패키지와 해당 명령 nvidia-docker를 nvidia-container-runtime 및 nvidia-docker2 패키지를 포함하지 않는 1.13.5에서 1.15.0으로 업데이트하는 과정에서 제거했습니다.

릴리스 날짜: 2024-04-04

AMI 이름: Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 64.0

추가됨

  • OSS Nvidia 드라이버 DLAMIs 경우 G6 및 Gr6 EC2 인스턴스 지원 추가

릴리스 날짜: 2024-03-29

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 62.3

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 63.2

Updated

  • 독점 및 OSS Nvidia 드라이버 DLAMI 모두에서 Nvidia 드라이버를 535.104.12에서 535.161.08로 업데이트했습니다. DLAMIs

  • 각 DLAMI에 대해 지원되는 새 인스턴스는 다음과 같습니다.

    • 독점 Nvidia 드라이버를 사용한 딥 러닝에서 G3(G3.16x는 지원되지 않음), P3, P3dn 지원

    • OSS Nvidia 드라이버를 사용한 딥 러닝은 G4dn, G5, P4d, P4de, P5를 지원합니다.

제거됨

  • 독점 Nvidia 드라이버 DLAMI에서 G4dn, G5, G3.16x EC2 인스턴스 지원을 제거했습니다.

릴리스 날짜: 2024-03-20

AMI 이름: Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 63.1

추가됨

  • AMI에 awscliv2를 /usr/local/bin/aws2로 추가하고 OSS Nvidia 드라이버 AMI에서 awscliv1을 /usr/local/bin/aws로 추가

릴리스 날짜: 2024-03-13

AMI 이름: Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 63.0

Updated

  • 현재 지원을 기반으로 G4dn 및 G5 지원이 포함된 업데이트된 OSS Nvidia 드라이버 DLAMI는 다음과 같습니다.

    • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2)는 P3, P3dn, G3, G4dn, G5를 지원합니다.

    • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2)는 G4dn, G5, P4, P5를 지원합니다.

  • OSS Nvidia 드라이버 DLAMIs G4dn, G5, P4, P5에 사용하는 것이 좋습니다.

릴리스 날짜: 2024-02-13

AMI 이름
  • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 62.1

  • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 62.1

Updated

  • OSS Nvidia 드라이버를 535.129.03에서 535.154.05로 업데이트했습니다.

  • EFA를 1.29.0에서 1.30.0으로 업데이트했습니다.

  • AWS OFI NCCL을 1.7.3-aws에서 1.7.4-aws로 업데이트했습니다.

릴리스 날짜: 2024-02-01

AMI 이름: Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 62.0

보안

  • CVE-2024-21626에 대한 패치를 사용하도록 실행 패키지 버전을 업데이트했습니다.

버전 61.4

AMI 이름: Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 61.4

Updated

  • OSS Nvidia 드라이버가 535.104.12에서 535.129.03로 업데이트됨

버전 61.0

AMI 이름: Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 61.4

Updated

  • EFA가 1.26.1에서 1.29.0으로 업데이트됨

  • GDRCopy가 2.3에서 2.4로 업데이트됨

추가됨

  • AWS Deep Learning AMI(DLAMI)는 두 개의 개별 그룹으로 분할됩니다.

    • Nvidia 독점 드라이버를 사용하는 DLAMI(P3, P3dn, G3, G5, G4dn 지원).

    • Nvidia OSS 드라이버를 사용하여 EFA(P4, P5 지원)를 활성화하는 DLAMI입니다.

  • DLAMI 분할에 대한 자세한 내용은 공개 발표를 참조하세요.

  • AWS CLI 쿼리의 경우 AWSCLI를 사용한 글머리 기호 쿼리 AMI-ID를 참조하세요(예: 리전은 us-east-1).

버전 60.6

AMI 이름: Deep Learning Base AMI(Amazon Linux 2) 버전 60.6

Updated

  • AWS OFI NCCL 플러그인이 버전 1.7.2에서 버전 1.7.3으로 업데이트됨

  • NCCL 버전 2.18.5로 CUDA 12.0-12.1 디렉터리 업데이트

  • CUDA12.1이 기본 CUDA 버전으로 업데이트됨

    • /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 및 PATH를 /usr/local/cuda-12.1/bin/으로 업데이트했습니다.

    • 다른 CUDA 버전으로 변경하려는 고객의 경우 그에 따라 LD_LIBRARY_PATH 및 PATH 변수를 정의하십시오.

추가됨

  • 이제 커널 라이브 패치가 활성화되었습니다. 라이브 패치를 사용하면 고객은 애플리케이션을 재부팅하거나 중단하지 않고도 실행 중인 Linux 커널에 보안 취약성 및 중요한 버그 패치를 적용할 수 있습니다. 커널 5.10.192에 대한 라이브 패치 지원은 11/30/23에 종료됩니다.

버전 60.5

AMI 이름: Deep Learning Base AMI(Amazon Linux 2) 버전 60.5

Updated

  • NVIDIA 드라이버가 535.54.03에서 535.104.12로 업데이트됨

    이 최신 드라이버는 535.54.03 드라이버에서 발견된 NVML ABI 주요 변경 사항과 드라이버 535.86.10에서 발견된 드라이버 회귀를 수정하여 P5 인스턴스의 CUDA 툴킷에 영향을 미쳤습니다. 수정 사항에 대한 자세한 내용은 다음 NVIDIA 릴리스 정보를 참조하세요.

    • 4235941 - NVML ABI Breaking 변경 수정

    • 4228552 - CUDA 도구 키트 오류 수정

  • NCCL 2.18.5로 CUDA 12.2 디렉터리 업데이트

  • EFA가 1.24.1에서 최신 1.26.1로 업데이트됨

추가됨

  • /usr/local/cuda-12.2에 CUDA12.2 추가usr/local/cuda-12

제거됨

  • CUDA 11.5 및 CUDA 11.6에 대한 지원 제거

버전 60.2

AMI 이름: Deep Learning Base AMI(Amazon Linux 2) 버전 60.2

Updated

  • aws-ofi-nccl 플러그인을 v1.7.1에서 v1.7.2로 업데이트했습니다.

버전 60.0

릴리스 날짜: 2023-08-11

추가됨

  • 이제이 AMI는 P5 및 이전에 지원되는 모든 EC2 인스턴스에서 다중 노드 훈련 기능을 지원합니다.

  • P5 EC2 인스턴스의 경우 NCCL 2.18을 사용하는 것이 권장되며 CUDA12.0 및 CUDA12.1에 추가되었습니다.

제거됨

  • CUDA11.5에 대한 지원이 제거되었습니다.

버전 59.2

릴리스 날짜: 2023-08-08

제거됨

  • CUDA-11.3 및 CUDA-11.4 제거

버전 59.1

릴리스 날짜: 2023-08-03

Updated

  • AWS OFI NCCL 플러그인을 v1.7.1로 업데이트했습니다.

  • PyTorch 2.0이 11.8을 지원하므로 CUDA11.8을 기본값으로 설정했으며 P5 EC2 인스턴스의 경우 >=CUDA11.8을 사용하는 것이 좋습니다.

    • /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 및 PATH를 /usr/local/cuda-11.8/bin/으로 업데이트했습니다.

    • 다른 cuda 버전의 경우 그에 따라 LD_LIBRARY_PATH를 정의하십시오.

고정

  • 이전 릴리스 날짜 2023-07-19에서 언급한 Nvidia Fabric Manager(FM) 패키지 로드 문제를 수정했습니다.

버전 58.9

릴리스 날짜: 2023-07-19

Updated

  • Nvidia 드라이버를 525.85.12에서 535.54.03로 업데이트했습니다.

  • EFA 설치 프로그램을 1.22.1에서 1.24.1로 업데이트했습니다.

추가됨

  • 최대 c 상태를 C1로 설정하여 프로세서의 유휴 상태를 비활성화하는 c 상태 변경을 추가했습니다. 이 변경은 파일 /etc/default/grub의 Linux 부트 인수에서 `intel_idle.max_cstate=1 processor.max_cstate=1`을 설정하여 이루어집니다.

  • AWS EC2 P5 인스턴스 지원:

    • 단일 노드/인스턴스를 사용하는 워크플로에 대한 P5 EC2 인스턴스 지원이 추가되었습니다. EFA(Elastic Fabric Adapter) 및 AWS OFI NCCL 플러그인을 사용한 다중 노드 지원(예: 다중 노드 훈련용)이 향후 릴리스에 추가될 예정입니다.

    • 최적의 성능을 얻으려면 CUDA>=11.8을 사용하십시오.

    • 알려진 문제: Nvidia Fabric Manager(FM) 패키지는 P5에 로드하는 데 시간이 걸리므로 고객은 P5 인스턴스를 시작한 후 FM이 로드될 때까지 2~3분 동안 기다려야 합니다. FM이 시작되었는지 확인하려면 sudo systemctl is-active nvidia-fabricmanager 명령을 실행하십시오. 워크플로를 시작하기 전에 활성 상태로 반환되어야 합니다. 이 문제는 향후 릴리스에서 수정될 예정입니다.

버전 58.0

릴리스 날짜: 2023-05-19

제거됨

  • 이 문서의 상단 섹션에 언급된 지원 정책에 따라 CUDA11.0-11.2 스택을 제거했습니다.

버전 57.3

릴리스 날짜: 2023-04-06

추가됨

  • Nvidia GDRCopy 2.3 추가

버전 56.8

릴리스 날짜: 2023-03-09

Updated

  • NVIDIA 드라이버를 515.65.01에서 525.85.12로 업데이트했습니다.

추가됨

  • /usr/local/cuda-11.8/에 cuda-11.8 추가

버전 56.0

릴리스 날짜: 2022-12-06

Updated

  • EFA 버전을 1.17.2에서 1.19.0으로 업데이트했습니다.

버전 55.0

릴리스 날짜: 2022-11-04

Updated

  • NVIDIA 드라이버를 510.47.03에서 515.65.01로 업데이트했습니다.

추가됨

  • /usr/local/cuda-11.7/에 cuda-11.7 추가

버전 54.0

릴리스 날짜: 2022-09-15

Updated

  • EFA 버전을 1.16.0에서 1.17.2로 업데이트했습니다.

버전 53.3

릴리스 날짜: 2022-05-25

Updated

  • aws-efa-installer를 버전 1.15.2로 업데이트했습니다.

  • p4de.24xlarge에 대한 토폴로지를 포함하는 aws-ofi-nccl을 버전 1.3.0-aws로 업데이트했습니다.

추가됨

  • 이 릴리스에서는 p4de.24xlarge EC2 인스턴스에 대한 지원이 추가되었습니다.

버전 53.0

릴리스 날짜: 2022-04-28

추가됨

  • Amazon CloudWatch 에이전트 추가

  • linux 사용자 cwagent를 사용하여 GPU 지표를 구성하기 위해 /opt/aws/amazon-cloudwatch-agent/etc/ 경로에서 사용할 수 있는 사전 정의된 json 파일을 사용하는 세 가지 시스템 서비스 추가

    • dlami-cloudwatch-agent@minimal

      • GPU 지표를 활성화하는 명령:

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • 다음과 같은 지표를 생성합니다. utilization_gpu, utilization_memory

    • dlami-cloudwatch-agent@partial

      • GPU 지표를 활성화하는 명령:

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • utilization_gpu, , utilization_memory, memory_total, 지표를 생성합니다memory_used. memory_free

    • dlami-cloudwatch-agent@all

      • GPU 지표를 활성화하는 명령:

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • 사용 가능한 모든 GPU 지표를 생성합니다.

버전 52.0

릴리스 날짜: 2022-03-08

Updated

  • 커널 버전을 5.10으로 업데이트

버전 51.0

릴리스 날짜: 2022-03-04

Updated

  • Nvidia 드라이버를 510.47.03로 업데이트했습니다.

버전 50.0

릴리스 날짜: 2022-02-17

Updated

  • AMI에 있는 Neuron 패키지에서 지원하지 않는 최신 버전으로 업데이트될 때 aws-neuron-dkms 및 tensorflow-model-server-neuron 잠금

    • 고객이 패키지를 잠금 해제하여 최신으로 업데이트하려는 경우의 명령: sudo yum versionlock delete aws-neuron-dkms sudo yum versionlock delete tensorflow-model-server-neuron

버전 49.0

릴리스 날짜: 2022-01-13

추가됨

  • 다음 구성 요소가 포함된 CUDA11.2가 추가되었습니다.

    • cuDNN v8.1.1.33

    • NCCL 2.8.4

    • CUDA 11.2.2

Updated

  • symlink pip를 pip3로 업데이트했습니다.

사용 중단

  • P2 인스턴스 유형에 대한 지원 중단

  • 더 이상 사용되지 않는 python2.7 및 "python-dev", "python-pip", "python-tk"와 같은 관련 python2.7 패키지 제거

버전 48.0

릴리스 날짜: 2021-12-27

Updated

  • org.apache.ant_1.9.2.v201404171502\lib\ant-apache-log4j.jar는 사용되지 않으며 Log4j 파일이 있는 사용자에게는 위험이 없으므로 cuda 버전에서 제거되었습니다. 자세한 내용은 https://nvidia.custhelp.com/app/answers/detail/a_id/5294 참조하십시오.

버전 47.0

릴리스 날짜: 2021-11-24

Updated

  • EFA를 1.14.1로 업데이트

버전 46.0

릴리스 날짜: 2021-11-12

Updated

  • Neuron 패키지를 aws-neuron-dkms=1.5.*, aws-neuron-runtime-base=1.5.*, aws-neuron-tools=1.6.*에서 aws-neuron-dkms=2.2.*, aws-neuron-runtime-base=1.6.*, aws-neuron-tools=2.0.*로 업데이트했습니다.

  • Neuron의 런타임이 더 이상 데몬으로 실행되지 않고 런타임이 이제 프레임워크와 라이브러리로 통합되므로 Neuron 패키지 aws-neuron-runtime=1.5.*가 제거되었습니다.

버전 45.0

릴리스 날짜: 2021-10-21

추가됨

  • JSON 형식의 보안 스캔 보고서는 /opt/aws/dlami/info/에서 사용할 수 있습니다.

버전 44.0

릴리스 날짜: 2021-10-08

변경됨

  • DLAMI를 사용하여 인스턴스를 시작할 때마다가 인스턴스 유형, 인스턴스 ID, DLAMI 유형 및 OS 정보를 AWS 수집할 수 있도록 'aws-dlami-autogenerated-tag-do-not-delete' 태그가 추가됩니다. DLAMI 내에서 사용되는 명령에 대한 정보는 수집되거나 보관되지 않습니다. DLAMI에 대한 다른 정보는 수집되거나 보관되지 않습니다. DLAMI에 대한 사용 추적을 거부하려면 시작 중 Amazon EC2 인스턴스에 태그를 추가하세요. 태그는 연결된 값이 true로 설정된 OPT_OUT_TRACKING 키를 사용해야 합니다. 자세한 내용은 Amazon EC2 리소스 태그 지정을 참조하세요.

보안

  • docker 버전을 docker-20.10.7-3으로 업데이트

버전 43.0

릴리스 날짜: 2021-08-24

변경됨

  • "노트북"을 "6.4.1" 버전으로 업데이트했습니다.

버전 42.0

릴리스 날짜: 2021-07-23

변경됨

  • Nvidia 드라이버 및 Fabric Manager 버전을 450.142.00로 업데이트했습니다.

버전 41.0

릴리스 날짜: 2021-06-24

변경됨

  • Neuron 릴리스 v1.14.0에 따라 Neuron 패키지를 업데이트했습니다.

버전 40.0

릴리스 날짜: 2021-06-10

변경됨

  • awscli 버전을 1.19.89로 업데이트

버전 39.0

릴리스 날짜: 2021-05-27

보안

  • CUDA-10.0 설치(/usr/local/cuda-10.0)에서 취약한 CUDA-10.0 구성 요소(Visual Profiler, Nsight EE 및 JRE)를 제거했습니다.

버전 38.0

릴리스 날짜: 2021-05-25

변경됨

  • 실행을 최신으로 업그레이드

버전 37.0

릴리스 날짜: 2021-04-23

변경됨

  • Nvidia Tesla 드라이버 및 Fabric Manager 버전을 450.119.03로 업데이트했습니다.

버전 36.1

릴리스 날짜: 2021-04-21

고정

  • 인스턴스 시작 속도가 느려지는 문제를 해결했습니다.

버전 36.0

릴리스 날짜: 2021-03-24

추가됨

  • 뉴런 모델 제공을 지원하기 위해 tensorflow-model-server-neuron을 추가했습니다.

변경됨

  • python3용 jupyterlab을 버전 3.0.8로 업그레이드했습니다.

고정

  • /usr/local/mpi에 OpenMPI를 이전에 설치하면 /opt/amazon/openmpi/bin/mpirun이 잘못 연결되었습니다. 링크 문제를 해결하기 위해 /usr/local/mpi 설치를 제거했습니다. /opt/amazon/openmpi에서 OpenMPI 설치를 사용할 수 있습니다.

  • PATH 및 LD_LIBRARY_PATH와 같은 쉘 환경 변수를 오염시킨 쉘 환경의 중복 및 기존이 아닌 정의를 제거합니다. 따라서 ~/.dlami 및 /etc/profile.d/var.sh 제거되고 /etc/profile.d/dlami.sh 추가되었습니다.

보안

버전 35.0

릴리스 날짜: 2021-03-08

추가됨

버전 34.3

릴리스 날짜: 2021-02-25

고정

  • 버전 34.1이 잘못 표시된 MOTD(오늘의 메시지)의 오타를 수정했습니다.

버전 34.2

릴리스 날짜: 2021-02-24

보안

  • CVE-2021-3177용 패치된 python2 및 python3

알려진 문제

  • MOTD(오늘의 메시지)에 버전 34.1이 잘못 표시된 오타가 있습니다.이 문제를 해결하기 위해 버전 34.3을 릴리스할 예정입니다.

버전 34.0

릴리스 날짜: 2021-02-09

변경됨

  • python2용 버전 20.3.4에 고정된 pip로, python2 및 python3.5를 지원하는 마지막 pip 버전입니다.

버전 33.0

릴리스 날짜: 2021-01-19

변경됨

  • CUDA11.0 및 CUDA11.1에서 cuDNN 버전을 v8.0.5.39CUDA11 업데이트했습니다. CUDA11

버전 32.0

릴리스 날짜: 2020-12-01

추가됨

  • 딥 러닝 AMI(Amazon Linux 2), 딥 러닝 AMI(Ubuntu CUDA116.04), 딥 러닝 AMI(Ubuntu 18.04), 딥 러닝 기본 AMI(Ubuntu 16.04), 딥 러닝 기본 AMI(Ubuntu 18.04), 딥 러닝 기본 AMI(Ubuntu 18.04), 딥 러닝 기본 AMI(Amazon Linux 2)용 NCCL 2.7.8, cuDNN 8.0.4.30이 포함된 CUDA11.1이 추가되었습니다.

버전 31.0

릴리스 날짜: 2020-11-02

변경됨

  • EFA 설치 프로그램을 버전 1.10.0으로 업그레이드했습니다.

  • CUDA 11.0용 cuDNN 버전을 v8.0.4.30으로 업그레이드했습니다.

  • AWS Neuron을 버전 1.1로 업그레이드

버전 30.0

릴리스 날짜: 2020-10-08

변경됨

  • NVIDIA 드라이버 및 Fabric Manager 버전을 450.80.02로 업데이트했습니다.

  • CUDA11.0용에서 NCCL을 2.7.8로 업데이트했습니다.

고정

  • yum 관리형 python 패키지가 pipmanaged 설치로 재정의되는 문제를 수정했습니다. 실행 가능한 pip, pip3 및 pip3.7이이 수정 사항의 /usr/bin에서 /usr/local/binas 부분으로 이동되었습니다.

버전 29.0

릴리스 날짜: 2020-09-11

변경됨

  • NVIDIA 드라이버를 버전 450.51.05에서 450.51.06로 업데이트했습니다.

  • NVIDIA Fabric Manager 버전 450.51.06 추가

  • EFA를 1.9.4로 업그레이드

버전 28.0

릴리스 날짜: 2020-08-19

변경됨

  • NCCL 2.7.6 및 cuDNN 8.0.2.39가 포함된 CUDA 11.0 스택 추가

버전 27.0

릴리스 날짜: 2020-08-07

변경됨

  • /opt/amazon/efa 업그레이드

  • '/usr/local/mpi'에서 Open MPI를 버전 4.0.3에서 4.0.4로 업그레이드했습니다. '/opt/amazon/openmpi/bin/mpirun'에서 열린 MPI는 여전히 버전 4.0.3입니다.

  • NVIDIA 드라이버를 440.33.01에서 450.51.05로 업데이트했습니다.

  • CUDA10.2에서 NCCL 버전을 2.6.4에서 2.7.6으로 업그레이드했습니다.

버전 26.0

릴리스 날짜: 2020-08-03

변경됨

  • AWS OFI NCCL을 최신으로 업그레이드했습니다. 자세한 내용은 여기를 참조하세요.

  • Cuda 8.0/9.0/9.2가 AMI에서 제거되었습니다.

고정

  • 공유 객체 파일: libopencv_dnn.so.4.2를 열 수 없는 오류를 수정했습니다.

버전 25.0

릴리스 날짜: 2020-07-19

변경됨

  • NCCL 2.6.4를 지원하도록 EFA 버전이 1.7.1로 업데이트됨

  • CUDA 10.2의 경우 NCCL 버전이 2.6.4로 업데이트됨

  • awscli 버전이 1.16.76에서 1.18.80로 업데이트됨

  • boto3 버전이 1.9.72에서 1.14.3으로 업데이트됨

버전 24.1

릴리스 날짜: 2020-06-14

변경됨

  • Docker 버전이 19.03.6로 업데이트됨

버전 24.0

릴리스 날짜: 2020-05-20

변경됨

  • Docker 버전이 19.03.6로 업데이트됨

버전 23.0

릴리스 날짜: 2020-04-29

변경됨

  • 업그레이드된 Python 패키지 버전

버전 22.0

릴리스 날짜: 2020-03-04

변경됨

  • CUDA 10.2 스택 추가

  • cuDNN 및 NCCL 버전에 대한 CUDA 10.0 및 10.1 업데이트