AWS Deep Learning AMI(Amazon Linux 2) - AWS Deep Learning AMIs

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Deep Learning AMI(Amazon Linux 2)

작은 정보

PyTorch 또는 TensorFlow와 같은 단일 프레임워크를 사용하는 고객은 여기에 언급된 단일 프레임워크 DLAMIs를 사용하는 것이 좋습니다.

시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.

AMI 이름 형식

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 ${XX.X}

  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 ${XX.X}

지원되는 EC2 인스턴스

AMI에는 다음이 포함됩니다.

  • 지원되는 AWS 서비스: Amazon EC2

  • 운영 체제: Amazon Linux 2

  • 컴퓨팅 아키텍처: x86

  • Conda 환경 프레임워크 및 python 버전:

    • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2):

      • python3: Python 3.10

      • tensorflow2_p310: TensorFlow 2.16, Python 3.10

      • pytorch_p310: PyTorch 2.2, Python 3.10

    • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2):

      • python3: Python 3.10

      • tensorflow2_p310: TensorFlow 2.16, Python 3.10

      • pytorch_p310: PyTorch 2.6, Python 3.10

  • NVIDIA 드라이버:

    • OSS Nvidia 드라이버: 570.172.08

    • 독점 Nvidia 드라이버: 570.172.08

  • NVIDIA CUDA12.1-12.4 스택:

    • CUDA, NCCL 및 cuDDN 설치 경로: /usr/local/cuda-xx.x/

    • 기본 CUDA: 12.1

      • PATH /usr/local/cuda는 CUDA12.1을 가리킵니다.

      • 아래 env vars가 업데이트되었습니다.

        • LD_LIBRARY_PATH: /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH에 /usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/

      • 다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.

    • CUDA 12.1-12.4용 컴파일된 NCCL 버전: 2.22.3

    • NCCL 테스트 위치:

      • all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

      • NCCL 테스트를 실행하려면 LD_LIBRARY_PATH가 아래 업데이트를 통과해야 합니다.

        • 공통 PATHs는 LD_LIBRARY_PATH에 이미 추가되었습니다.

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.

  • EFA 설치 관리자: 1.43.1

  • GDRCopy : 2.4

  • AWS OFI NCCL: 1.13.2

    • 시스템 위치: /usr/local/cuda-xx.x/efa

    • 이는 /usr/local/cuda-xx.x/efa/test-cuda-xx.x/에 있는 NCCL 테스트를 실행하기 위해 추가되었습니다.

    • 또한 PyTorch 패키지에는 conda 패키지 aws-ofi-nccl-dlc 패키지로 동적으로 연결된 AWS OFI NCCL 플러그인이 함께 제공되며 PyTorch는 시스템 AWS OFI NCCL 대신 해당 패키지를 사용합니다.

  • NCCL 테스트 위치: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

  • /usr/local/bin/awsAWS CLI 2의 v2와 /usr/local/bin/aws의 AWS CLI v1

  • EBS 볼륨 유형: gp3

  • SSM 파라미터를 사용하여 AMI-ID 쿼리(예제 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • 독점 Nvidia 드라이버:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • AWSCLI를 사용하여 AMI-ID 쿼리(예제 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • 독점 Nvidia 드라이버:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

고지 사항

1.37에서 1.38로 EFA 업데이트(2025-02-05 릴리스)

  • 이제 EFA는 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.

Neuron Conda 환경 제거

  • 2024년 7월 18일 이후에 릴리스된 Deep Learning Proprietary Nvidia Driver AMIs는 PyTorch 및 TensorFlow용 뉴런 conda 환경 없이 배송됩니다. 대신 DLAMIs 릴리스 정보의 Neuron DLAMI를 사용하여 뉴런 환경을 활용하세요.

패키지 제거 감사

  • DLAMI는 2024년 3월 26일(2024-03-26)부터 2024년 4월 12일(2024-04-12)까지 감사 패키지 없이 배송되었습니다. 로깅 및 모니터링 요구 사항에이 특정 패키지가 필요한 경우 감사 패키지가 설치된 워크플로를 사용하려면 워크플로를 최신 DLAMI로 마이그레이션하십시오.

Horovod

  • Horovod는 DLAMI의 현재 pytorch_p310 및 tensorflow2_p310 conda 환경에서 제거됩니다. 고객은 horovod 지침에 따라 horovod 라이브러리를 설치하고 분산 훈련 작업을 위해 DLAMIs에 설치할 수 있습니다.

릴리스 날짜: 2025-04-22

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 81.2

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 81.2

Updated

릴리스 날짜: 2025-02-17

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.6

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.4

Updated

제거됨

릴리스 날짜: 2025-02-05

AMI 이름
  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.2

  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.4

Updated

  • EFA 버전을 1.37.0에서 1.38.0으로 업그레이드

    • 이제 EFA는 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.

릴리스 날짜: 2025-01-15

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.3

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.1

Updated

릴리스 날짜: 2024-12-09

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.1

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.9

Updated

  • Nvidia 컨테이너 툴킷을 버전 1.17.0에서 1.17.3으로 업그레이드했습니다.

릴리스 날짜: 2024-11-11

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.9

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.7

Updated

  • 보안 취약성 CVE-2024-0134를 해결하여 Nvidia 컨테이너 툴킷을 버전 1.16.2에서 1.17.0으로 업그레이드했습니다.

릴리스 날짜: 2024-10-22

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.6

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.6

Updated

릴리스 날짜: 2024-10-03

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.3

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.3

Updated

  • 보안 취약성 CVE-2024-0133을 해결하여 Nvidia 컨테이너 툴킷을 버전 1.16.1에서 1.16.2로 업그레이드했습니다.

릴리스 날짜: 2024-07-18

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.6

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.7

Updated

  • Deep Learning 독점 Nvidia 드라이버 AMI에서 aws_neuron_pytorch_p38 및 aws_neuron_tensorflow_p38 conda 환경을 제거했습니다.

  • 딥 러닝 독점 Nvidia 드라이버 AMI에서 Inf1 인스턴스 패밀리 지원을 제거했습니다.

릴리스 날짜: 2024-06-06

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.5

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.5

Updated

  • Nvidia 드라이버 버전을 535.183.01에서 535.161.08로 업데이트했습니다.

릴리스 날짜: 2024-05-17

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.1

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.1

Updated

릴리스 날짜: 2024-05-07

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.0

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.0

Updated

  • TensorFlow 버전이 tensorflow2_p310 환경에서 2.15에서 2.16으로 업데이트되었습니다.

  • EFA 버전을 버전 1.30에서 버전 1.32로 업데이트했습니다.

  • AWS OFI NCCL 플러그인을 버전 1.7.4에서 버전 1.9.1로 업데이트했습니다.

  • Nvidia 컨테이너 툴킷을 버전 1.13.5에서 버전 1.15.0으로 업데이트했습니다.

추가됨

  • CUDA12.3, NCCL 2.21.5, CuDNN 8.9.7이 포함된 CUDA12.3 스택 추가 CuDNN

제거됨

  • /usrCUDA11/local/cuda-CUDA1211.7, usr/local/cuda-12.0 스택 제거usr/local/cuda-11

  • nvidia-docker2 패키지와 해당 명령 nvidia-docker를 nvidia-container-runtime 및 nvidia-docker2 패키지를 포함하지 않는 1.13.5에서 1.15.0으로 업데이트하는 과정에서 제거했습니다.

릴리스 날짜: 2024-04-04

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 77.0

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 77.0

Updated

  • pytorch_p310 환경에서 PyTorch 버전이 2.1에서 2.2로 업데이트되었습니다.

  • OSS Nvidia 드라이버 DLAMIs 경우 G6 및 Gr6 EC2 인스턴스 지원이 추가되었습니다. 자세한 내용은 EC2 인스턴스 선택 페이지를 참조하세요.

릴리스 날짜: 2024-03-29

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.8

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.9

Updated

  • 독점 및 OSS Nvidia 드라이버 DLAMI 모두에서 Nvidia 드라이버를 535.104.12에서 535.161.08로 업데이트했습니다. DLAMIs

  • 각 DLAMI에 대해 지원되는 새 인스턴스는 다음과 같습니다.

    • 독점 Nvidia 드라이버를 사용한 딥 러닝은 G3(G3.16x는 지원되지 않음), P3, P3dn, Inf1을 지원합니다.

    • OSS Nvidia 드라이버를 사용한 딥 러닝은 G4dn, G5, P4d, P4de를 지원합니다.

제거됨

  • 독점 Nvidia 드라이버 DLAMI에서 G4dn, G5, G3.16x EC2 인스턴스 지원을 제거했습니다.

버전 76.8

릴리스 날짜: 2024-03-20

AMI 이름
  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.8

추가됨

  • AMI에 awscliv2를 /usr/local/bin/aws2로 추가하고 독점 Nvidia 드라이버 AMI에 awscliv1을 /usr/local/bin/aws로 추가

버전 76.7

릴리스 날짜: 2024-03-20

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.7

추가됨

  • AMI에 awscliv2를 /usr/local/bin/aws2로 추가하고 OSS Nvidia 드라이버 AMI에서 awscliv1을 /usr/local/bin/aws로 추가

  • 현재 지원을 기반으로 G4dn 및 G5 지원이 포함된 업데이트된 OSS Nvidia 드라이버 DLAMI는 다음과 같습니다.

    • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2)는 P3, P3dn, G3, G5, G4dn을 지원합니다.

    • Deep Learning Base OSS Nvidia Driver AMI(Amazon Linux 2)는 G4dn, G5, P4, P5를 지원합니다.

  • OSS Nvidia 드라이버 DLAMIs G4dn, G5, P4, P5에 사용하는 것이 좋습니다.

버전 76.3

릴리스 날짜: 2024-02-14

Updated

  • TensorFlow를 2.13.0에서 2.15.0으로 업데이트했습니다.

  • EFA를 1.29.0에서 1.30.0으로 업데이트했습니다.

  • 1.7.3 AWS-aws에서 1.7.4-aws로 업데이트된-OFI-NCCL

  • 딥 러닝 독점 Nvidia 드라이버 AMI에서 Nvidia 드라이버를 535.104.12으로 업데이트했습니다.

  • 딥 러닝 OSS Nvidia 드라이버 AMI에서 Nvidia 드라이버를 535.154.05로 업데이트했습니다.

버전 76.2

릴리스 날짜: 2024-02-02

AMI 이름
  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.2

  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.4

보안

  • CVE-2024-21626에 대한 패치를 사용하도록 실행 패키지 버전을 업데이트했습니다.

버전 76.1

릴리스 날짜: 2023-12-27

Updated

  • PyTorch를 2.0.1에서 2.1.0으로 업데이트했습니다.

버전 75.1

릴리스 날짜: 2023-11-17

DLAMI에 대한 중요 변경 사항을 참조하세요.

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 75.1

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 75.1

추가됨

  • AWS Deep Learning AMI(DLAMI)는 두 개의 개별 그룹으로 분할됩니다.

    • Nvidia 독점 드라이버를 사용하는 DLAMI(P3, P3dn, G3, G5, G4dn 지원).

    • Nvidia OSS 드라이버를 사용하여 EFA(P4, P5 지원)를 활성화하는 DLAMI입니다.

  • DLAMI 분할에 대한 자세한 내용은 공개 발표를 참조하세요.

  • AWS 위의에 대한 cli 쿼리는 AWSCLI를 사용한 쿼리 AMI-ID 글머리 기호 아래의 릴리스 정보에 있습니다(예제 리전은 us-east-1). AWSCLI

Updated

  • EFA가 1.26.1에서 1.29.0으로 업데이트됨

  • GDRCopy가 2.3에서 2.4로 업데이트됨

버전 74.4

릴리스 날짜: 2023-10-27

Updated

  • AWS OFI NCCL 플러그인이 버전 1.7.2에서 버전 1.7.3으로 업데이트됨

  • NCCL 버전 2.18.5로 CUDA 12.0-12.1 디렉터리 업데이트

  • CUDA12.1이 기본 CUDA 버전으로 업데이트됨

    • LD_LIBRARY_PATH가 /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 및 PATH가 /usr/local/cuda-12.1/bin/으로 업데이트됨

    • 다른 CUDA 버전으로 변경하려는 고객의 경우 그에 따라 LD_LIBRARY_PATH 및 PATH 변수를 정의하십시오.

  • 모든 conda 환경에서 SNYK-PYTHON-PILLOW-5918878을 수정하기 위해 Pillow를 버전 9.4.0에서 10.1.0으로 업데이트했습니다.

  • 모든 conda 환경에서 SNYK-PYTHON-OPENCVPYTHON-5926695를 수정하기 위해 opencv-python을 4.8.0.74에서 4.8.1.78로 업데이트했습니다.

추가됨

  • 이제 커널 라이브 패치가 활성화되었습니다. 라이브 패치를 사용하면 고객은 실행 중인 애플리케이션을 재부팅하거나 중단하지 않고도 실행 중인 Linux 커널에 보안 취약성 및 중요한 버그 패치를 적용할 수 있습니다.

버전 74.0

릴리스 날짜: 2023-07-19

Updated

  • TensorFlow를 2.12에서 2.13으로 업데이트했습니다.

    • Horovod는이 릴리스의 conda 환경에서 제거되었습니다. horovod 설치에 대한 자세한 내용은 공지를 참조하세요.

버전 73.1

릴리스 날짜: 2023-06-12

Updated

  • PyTorch를 2.0.0에서 2.0.1로 업데이트했습니다.