

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# AWS Deep Learning AMI GPU PyTorch 2.4(Ubuntu 22.04)
<a name="aws-deep-learning-ami-gpu-pytorch-2.4-ubuntu-22-04"></a>

시작하기에 관한 도움말은 [DLAMI 시작하기](getting-started.md) 섹션을 참조하세요.

#### AMI 이름 형식
<a name="name-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.${PATCH\_VERSION}(Ubuntu 22.04) ${YYYY-MM-DD}

#### 지원되는 EC2 인스턴스
<a name="instances-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ [중요 DLAMI 변경 사항](important-changes.md)을 참조하세요.
+ OSS Nvidia 드라이버를 사용하는 딥 러닝은 G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en을 지원합니다.

#### AMI에는 다음이 포함됩니다.
<a name="contents-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ **지원되는 AWS 서비스**: EC2
+ **운영 체제**: Ubuntu 22.04
+ **컴퓨팅 아키텍처**: x86
+ **Python**: /opt/conda/envs/pytorch/bin/python
+ **NVIDIA 드라이버**:
  + OSS Nvidia 드라이버: 550.144.03
+ **NVIDIA CUDA12.1 스택**:
  + CUDA, NCCL 및 cuDDN 설치 경로: /usr/local/cuda-12.4/
  + **기본 CUDA:** 12.4
    + PATH /usr/local/cuda는 /usr/local/cuda-12.4/를 가리킵니다.
    + 아래 env vars가 업데이트되었습니다.
      +  LD\_LIBRARY\_PATH: /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86\_64-linux/lib
      + PATH: /usr/local/cuda/bin/:/usr/local/cuda/include/
  + /usr/local/cuda/에 있는 컴파일된 시스템 NCCL 버전: 2.21.5
  + PyTorch conda 환경에서 컴파일된 PyTorch NCCL 버전: 2.20.5
+  **NCCL 테스트 위치: ** 
  + all\_reduce, all\_gather 및 reduce\_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
  + NCCL 테스트를 실행하기 위해 LD\_LIBRARY\_PATH는 이미 필요한 경로로 업데이트되어 있습니다.
    + 공통 PATH가 다음 LD\_LIBRARY\_PATH에 이미 추가됨:
      +  `/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib`
  + LD\_LIBRARY\_PATH가 CUDA 버전 경로로 업데이트됨
    +  /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86\_64-linux/lib
+ **EFA 설치 관리자:** 1.34.0
+ **Nvidia GDRCopy:** 2.4.1
+ **Nvidia 트랜스포머 엔진:** v1.11.0
+ **AWS OFI NCCL 플러그인**:는의 일부로 설치됩니다. `EFA Installer-aws` 
  + **설치 경로:** `/opt/aws-ofi-nccl/` . 경로`/opt/aws-ofi-nccl/lib`가 LD\_LIBRARY\_PATH에 추가됩니다.
  + 링, message\_transfer에 대한 **경로를 테스트합니다**. `/opt/aws-ofi-nccl/tests` 
  + 참고: PyTorch 패키지는 동적으로 연결된 AWS OFI NCCL 플러그인과 함께 conda 패키지 `aws-ofi-nccl-dlc` 패키지로 제공되며 PyTorch는 시스템 AWS OFI NCCL 대신 해당 패키지를 사용합니다.
+ **AWS CLI v2**는 로`aws2`, **AWS CLI v1**은 로 `aws`
+ **EBS 볼륨 유형**: gp3
+ **Python 버전:** 3.11
+  **SSM 파라미터를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1):** 
  +  **OSS Nvidia 드라이버:** 

    ```
    aws ssm get-parameter --region {{us-east-1}} \
            --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \
            --query "Parameter.Value" \
            --output text
    ```
+  **AWSCLI를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1):** 
  +  **OSS Nvidia 드라이버:** 

    ```
    aws ec2 describe-images --region {{us-east-1}} \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```

#### Notices
<a name="notices-gpu-pytorch-2.4-ubuntu-22-04"></a>

**P5/P5e 인스턴스**
+ DeviceIndex는 각 NetworkCard에 고유하며, NetworkCard당 ENI의 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENI의 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다. 다음은 awscli를 사용하는 EC2 P5 인스턴스 시작 명령의 예입니다. NetworkCardIndex가 번호 0\~31이며 첫 번째 인터페이스의 경우 DeviceIndex는 0, 나머지 31개 인터페이스의 경우 DeviceIndex는 1로 설정됩니다.

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

#### 릴리스 날짜: 2025-02-17
<a name="2025-02-17-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 이름:** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20250216

##### 업데이트
<a name="w2aac25c13b7c11c13b5"></a>
+ NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.
  + 자세한 내용은 [https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4) 릴리스 정보 페이지를 참조하세요.
  + Container Toolkit 버전 1.17.4에서는 이제 CUDA 호환 라이브러리 탑재가 비활성화됩니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 [CUDA 호환성 계층을 사용하는 경우](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat) 자습서에 표시된 대로 CUDA 호환성 라이브러리를 포함하도록 LD\_LIBRARY\_PATH를 업데이트해야 합니다.

#### 릴리스 날짜: 2025-01-21
<a name="2025-01-21-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 이름:** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20250119

##### 업데이트
<a name="w2aac25c13b7c11c15b5"></a>
+ [2025년 1월 NVIDIA GPU 디스플레이 드라이버 보안 공지](https://nvidia.custhelp.com/app/answers/detail/a_id/5614)에 있는 CVE를 해결하기 위해 NVIDIA 드라이버를 버전 550.127.05에서 550.144.03으로 업그레이드했습니다.

#### 릴리스 날짜: 2024-11-18
<a name="2024-11-18-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 이름:** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20241116

##### 고정
<a name="w2aac25c13b7c11c17b5"></a>
+ 커널 주소 공간 레이아웃 무작위화(KASLR) 기능의 결함을 해결하기 위해 Ubuntu 커널이 변경되었으므로, G4Dn/G5 인스턴스는 OSS Nvidia 드라이버에서 CUDA를 올바르게 초기화할 수 없습니다. 이 문제를 완화하기 위해 이 DLAMI에는 G4Dn 및 G5 인스턴스용 독점 드라이버를 동적으로 로드하는 기능이 포함되어 있습니다. 인스턴스가 제대로 작동할 수 있도록 하기 위해 해당 로드 작업에 초기화 기간이 잠시 소요될 수 있습니다.
  + 이 서비스의 상태를 확인하기 위해 다음 명령을 사용할 수 있습니다.

```
sudo systemctl is-active dynamic_driver_load.service active
```

#### 릴리스 날짜: 2024-10-16
<a name="2024-10-16-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 이름**: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20241016

##### 추가됨
<a name="w2aac25c13b7c11c19b5"></a>
+ 트랜스포머 모델 가속화를 위한 Nvidia TransformerEngine v1.11.0 추가(자세한 내용은 [https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html](https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html) 참조)

#### 릴리스 날짜: 2024-09-30
<a name="2024-09-30-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 이름**: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20240929

##### 업데이트
<a name="w2aac25c13b7c11c21b5"></a>
+ Nvidia Container Toolkit을 버전 1.16.1에서 1.16.2로 업그레이드하여 보안 취약성 [CVE-2024-0133](https://nvd.nist.gov/vuln/detail/CVE-2024-0133)을 해결했습니다.

#### 릴리스 날짜: 2024-09-26
<a name="2024-09-26-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 이름**: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20240925

##### 추가됨
<a name="w2aac25c13b7c11c23b5"></a>
+ Deep Learning AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 시리즈의 최초 릴리스. NVIDIA 드라이버 R550, CUDA=12.4.1, cuDNN=8.9.7, PyTorch NCCL=2.20.5 및 EFA=1.34.0으로 보완된 conda 환경 pytorch를 포함합니다.