AWS 딥 러닝 AMI(Amazon Linux 2) - AWS Deep Learning AMIs

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS 딥 러닝 AMI(Amazon Linux 2)

작은 정보

PyTorch 또는 TensorFlow와 같은 단일 프레임워크를 사용하는 고객은 여기에 언급된 단일 프레임워크 DLAMIs를 사용하는 것이 좋습니다.

시작하는 데 도움이 필요하면 섹션을 참조하세요DLAMI 시작하기.

AMI 이름 형식

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 ${XX.X}

  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 ${XX.X}

지원되는 EC2 인스턴스

AMI에는 다음이 포함됩니다.

  • 지원되는 AWS 서비스: Amazon EC2

  • 운영 체제: Amazon Linux 2

  • 컴퓨팅 아키텍처: x86

  • Conda 환경 프레임워크 및 python 버전:

    • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2):

      • python3: Python 3.10

      • tensorflow2_p310: TensorFlow 2.16, Python 3.10

      • pytorch_p310: PyTorch 2.2, Python 3.10

    • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2):

      • python3: Python 3.10

      • tensorflow2_p310: TensorFlow 2.16, Python 3.10

      • pytorch_p310: PyTorch 2.2, Python 3.10

  • NVIDIA 드라이버:

    • OSS Nvidia 드라이버: 550.163.01

    • 독점 Nvidia 드라이버: 550.163.01

  • NVIDIA CUDA12.1-12.4 스택:

    • CUDA, NCCL 및 cuDDN 설치 경로: /usr/local/cuda-xx.x/

    • 기본 CUDA: 12.1

      • PATH /usr/local/cuda는 CUDA12.1을 가리킵니다.

      • 아래 env vars가 업데이트되었습니다.

        • LD_LIBRARY_PATH: have /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH에 /usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/

      • 다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.

    • CUDA 12.1-12.4용 컴파일된 NCCL 버전: 2.22.3

    • NCCL 테스트 위치:

      • all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

      • NCCL 테스트를 실행하려면 LD_LIBRARY_PATH가 아래 업데이트를 통과해야 합니다.

        • 공통 PATHs는 LD_LIBRARY_PATH에 이미 추가되었습니다.

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 다른 CUDA 버전의 경우 그에 따라 LD_LIBRARY_PATH를 업데이트하십시오.

  • EFA 설치 관리자: 1.38.0

  • GDRCopy : 2.4

  • AWS OFI NCCL: 1.13.2

    • 시스템 위치: /usr/local/cuda-xx.x/efa

    • 이는 /usr/local/cuda-xx.x/efa/test-cuda-xx.x/에 위치한 NCCL 테스트를 실행하기 위해 추가되었습니다.

    • 또한 PyTorch 패키지에는 conda 패키지 aws-ofi-nccl-dlc 패키지로 동적으로 연결된 AWS OFI NCCL 플러그인이 함께 제공되며 PyTorch는 시스템 AWS OFI NCCL 대신 해당 패키지를 사용합니다.

  • NCCL 테스트 위치: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

  • /usr/local/bin/awsAWS CLI 2의 v2와 /usr/local/bin/aws의 AWS CLI v1

  • EBS 볼륨 유형: gp3

  • SSM 파라미터를 사용하여 AMI-ID 쿼리(예제 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • 독점 Nvidia 드라이버:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • AWSCLI를 사용하여 AMI-ID 쿼리(예제 리전은 us-east-1):

    • OSS Nvidia 드라이버:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • 독점 Nvidia 드라이버:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

고지 사항

1.37에서 1.38로의 EFA 업데이트(2025-02-05 릴리스)

  • EFA는 이제 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.

Neuron Conda 환경 제거

  • 2024년 7월 18일 이후에 릴리스된 Deep Learning Proprietary Nvidia Driver AMIs는 PyTorch 및 TensorFlow용 뉴런 conda 환경 없이 배송됩니다. 대신 DLAMIs 릴리스 정보의 Neuron DLAMI를 사용하여 뉴런 환경을 활용하세요.

패키지 제거 감사

  • DLAMI는 2024년 3월 26일(2024-03-26)부터 2024년 4월 12일(2024-04-12)까지 감사 패키지 없이 배송되었습니다. 로깅 및 모니터링 요구 사항에이 특정 패키지가 필요한 경우 감사 패키지가 설치된 워크플로를 사용하려면 워크플로를 최신 DLAMI로 마이그레이션하십시오.

Horovod

  • Horovod는 DLAMI의 현재 pytorch_p310 및 tensorflow2_p310 conda 환경에서 제거됩니다. 고객은 horovod 지침에 따라 horovod 라이브러리를 설치하고 분산 훈련 작업을 위해 DLAMIs에 설치할 수 있습니다.

릴리스 날짜: 2025-04-22

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 81.2

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 81.2

Updated

릴리스 날짜: 2025-02-17

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.6

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.4

Updated

제거됨

릴리스 날짜: 2025-02-05

AMI 이름
  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.2

  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.4

Updated

  • EFA 버전을 1.37.0에서 1.38.0으로 업그레이드

    • EFA는 이제 AWS OFI NCCL 플러그인을 번들링합니다. OFI NCCL 플러그인은 이제 원래 /opt/amazon/ofiaws-ofi-nccl에서 찾을 수 있습니다. LD_LIBRARY_PATH 변수를 업데이트하는 경우 OFI NCCL 위치를 올바르게 수정해야 합니다.

릴리스 날짜: 2025-01-15

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.3

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.1

Updated

릴리스 날짜: 2024-12-09

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 80.1

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.9

Updated

  • Nvidia 컨테이너 툴킷을 버전 1.17.0에서 1.17.3으로 업그레이드했습니다.

릴리스 날짜: 2024-11-11

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.9

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.7

Updated

  • 보안 취약성 CVE-2024-0134를 해결하여 Nvidia 컨테이너 툴킷을 버전 1.16.2에서 1.17.0으로 업그레이드했습니다.

릴리스 날짜: 2024-10-22

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.6

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.6

Updated

릴리스 날짜: 2024-10-03

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.3

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 79.3

Updated

  • 보안 취약성 CVE-2024-0133을 해결하여 Nvidia 컨테이너 툴킷을 버전 1.16.1에서 1.16.2로 업그레이드했습니다.

릴리스 날짜: 2024-07-18

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.6

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.7

Updated

  • Deep Learning 독점 Nvidia 드라이버 AMI에서 aws_neuron_pytorch_p38 및 aws_neuron_tensorflow_p38 conda 환경을 제거했습니다.

  • 딥 러닝 독점 Nvidia 드라이버 AMI에서 Inf1 인스턴스 패밀리 지원을 제거했습니다.

릴리스 날짜: 2024-06-06

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.5

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.5

Updated

  • Nvidia 드라이버 버전을 535.183.01에서 535.161.08로 업데이트했습니다.

릴리스 날짜: 2024-05-17

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.1

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.1

Updated

릴리스 날짜: 2024-05-07

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.0

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 78.0

Updated

  • TensorFlow 버전이 tensorflow2_p310 환경에서 2.15에서 2.16으로 업데이트되었습니다.

  • EFA 버전을 버전 1.30에서 버전 1.32로 업데이트했습니다.

  • AWS OFI NCCL 플러그인을 버전 1.7.4에서 버전 1.9.1로 업데이트했습니다.

  • Nvidia 컨테이너 툴킷을 버전 1.13.5에서 버전 1.15.0으로 업데이트했습니다.

추가됨

  • CUDA12.3, NCCL 2.21.5, CuDNN 8.9.7이 포함된 CUDA12.3 스택 추가 CuDNN

제거됨

  • /usrCUDA11/local/cuda-CUDA1211.7, usr/local/cuda-12.0 스택 제거usr/local/cuda-11

  • nvidia-docker2 패키지와 해당 명령 nvidia-docker를 nvidia-container-runtime 및 nvidia-docker2 패키지를 포함하지 않는 1.13.5에서 1.15.0으로 업데이트하는 과정에서 제거했습니다.

릴리스 날짜: 2024-04-04

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 77.0

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 77.0

Updated

  • pytorch_p310 환경에서 PyTorch 버전이 2.1에서 2.2로 업데이트되었습니다.

  • OSS Nvidia 드라이버 DLAMIs 경우 G6 및 Gr6 EC2 인스턴스 지원이 추가되었습니다. 자세한 내용은 EC2 인스턴스 선택 페이지를 참조하세요.

릴리스 날짜: 2024-03-29

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.8

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.9

Updated

  • 독점 및 OSS Nvidia 드라이버 DLAMI 모두에서 Nvidia 드라이버를 535.104.12에서 535.161.08로 업데이트했습니다. DLAMIs

  • 각 DLAMI에 대해 지원되는 새 인스턴스는 다음과 같습니다.

    • 독점 Nvidia 드라이버를 사용한 딥 러닝은 G3(G3.16x는 지원되지 않음), P3, P3dn, Inf1을 지원합니다.

    • OSS Nvidia 드라이버를 사용한 딥 러닝은 G4dn, G5, P4d, P4de를 지원합니다.

제거됨

  • 독점 Nvidia 드라이버 DLAMI에서 G4dn, G5, G3.16x EC2 인스턴스 지원을 제거했습니다.

버전 76.8

릴리스 날짜: 2024-03-20

AMI 이름
  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.8

추가됨

  • AMI에 awscliv2를 /usr/local/bin/aws2로 추가하고 독점 Nvidia 드라이버 AMI에 awscliv1을 /usr/local/bin/aws로 추가

버전 76.7

릴리스 날짜: 2024-03-20

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.7

추가됨

  • AMI에 awscliv2를 /usr/local/bin/aws2로 추가하고 OSS Nvidia 드라이버 AMI에서 awscliv1을 /usr/local/bin/aws로 추가

  • 현재 지원을 기반으로 G4dn 및 G5 지원이 포함된 업데이트된 OSS Nvidia 드라이버 DLAMI는 다음과 같습니다.

    • Deep Learning Base 독점 Nvidia 드라이버 AMI(Amazon Linux 2)는 P3, P3dn, G3, G5, G4dn을 지원합니다.

    • Deep Learning Base OSS Nvidia 드라이버 AMI(Amazon Linux 2)는 G4dn, G5, P4, P5를 지원합니다.

  • OSS Nvidia 드라이버 DLAMIs G4dn, G5, P4, P5에 사용하는 것이 좋습니다.

버전 76.3

릴리스 날짜: 2024-02-14

Updated

  • TensorFlow를 2.13.0에서 2.15.0으로 업데이트했습니다.

  • EFA를 1.29.0에서 1.30.0으로 업데이트했습니다.

  • 1.7.3 AWS-aws에서 1.7.4-aws로 업데이트된-OFI-NCCL

  • 딥 러닝 독점 Nvidia 드라이버 AMI에서 Nvidia 드라이버를 535.104.12로 업데이트했습니다.

  • 딥 러닝 OSS Nvidia 드라이버 AMI에서 Nvidia 드라이버를 535.154.05로 업데이트

버전 76.2

릴리스 날짜: 2024-02-02

AMI 이름
  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.2

  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 76.4

보안

  • CVE-2024-21626에 대한 패치를 사용하도록 실행 패키지 버전을 업데이트했습니다.

버전 76.1

릴리스 날짜: 2023-12-27

Updated

  • PyTorch를 2.0.1에서 2.1.0으로 업데이트했습니다.

버전 75.1

릴리스 날짜: 2023-11-17

DLAMI에 대한 중요 변경 사항을 참조하세요.

AMI 이름
  • Deep Learning OSS Nvidia 드라이버 AMI(Amazon Linux 2) 버전 75.1

  • Deep Learning 독점 Nvidia 드라이버 AMI(Amazon Linux 2) 버전 75.1

추가됨

  • AWS Deep Learning AMI(DLAMI)는 두 개의 개별 그룹으로 분할됩니다.

    • Nvidia 독점 드라이버를 사용하는 DLAMI(P3, P3dn, G3, G5, G4dn 지원).

    • Nvidia OSS 드라이버를 사용하여 EFA(P4, P5 지원)를 활성화하는 DLAMI입니다.

  • DLAMI 분할에 대한 자세한 내용은 공개 발표를 참조하세요.

  • AWS 위의에 대한 cli 쿼리는 AWSCLI를 사용한 쿼리 AMI-ID 글머리 기호 아래의 릴리스 정보에 있습니다(예제 리전은 us-east-1). AWSCLI

Updated

  • EFA가 1.26.1에서 1.29.0으로 업데이트됨

  • GDRCopy가 2.3에서 2.4로 업데이트됨

버전 74.4

릴리스 날짜: 2023-10-27

Updated

  • AWS OFI NCCL 플러그인이 버전 1.7.2에서 버전 1.7.3으로 업데이트됨

  • NCCL 버전 2.18.5로 CUDA 12.0-12.1 디렉터리 업데이트

  • CUDA12.1이 기본 CUDA 버전으로 업데이트됨

    • LD_LIBRARY_PATH가 /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 및 PATH가 /usr/local/cuda-12.1/bin/으로 업데이트됨

    • 다른 CUDA 버전으로 변경하려는 고객의 경우 그에 따라 LD_LIBRARY_PATH 및 PATH 변수를 정의하십시오.

  • 모든 conda 환경에서 SNYK-PYTHON-PILLOW-5918878을 수정하기 위해 Pillow를 버전 9.4.0에서 10.1.0으로 업데이트했습니다.

  • 모든 conda 환경에서 SNYK-PYTHON-OPENCVPYTHON-5926695를 수정하기 위해 opencv-python을 4.8.0.74에서 4.8.1.78로 업데이트했습니다.

추가됨

  • 이제 커널 라이브 패치가 활성화되었습니다. 라이브 패치를 사용하면 고객은 애플리케이션을 재부팅하거나 중단하지 않고도 실행 중인 Linux 커널에 보안 취약성 및 중요한 버그 패치를 적용할 수 있습니다.

버전 74.0

릴리스 날짜: 2023-07-19

Updated

  • TensorFlow를 2.12에서 2.13으로 업데이트했습니다.

    • Horovod는이 릴리스의 conda 환경에서 제거되었습니다. horovod 설치에 대한 자세한 내용은 공지를 참조하세요.

버전 73.1

릴리스 날짜: 2023-06-12

Updated

  • PyTorch를 2.0.0에서 2.0.1로 업데이트했습니다.