

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 지원되는 프레임워크 AWS 리전및 인스턴스 유형
<a name="distributed-data-parallel-support"></a>

SageMaker AI 분산 데이터 병렬 처리(SMDDP) 라이브러리를 사용하기 전에 지원되는 ML 프레임워크 및 인스턴스 유형과 AWS 계정 및에 충분한 할당량이 있는지 확인합니다 AWS 리전.

## 지원되는 프레임워크
<a name="distributed-data-parallel-supported-frameworks"></a>

다음 표는 SageMaker AI와 SMDDP가 지원하는 딥 러닝 프레임워크와 해당 버전을 보여줍니다. SMDDP 라이브러리는 [SageMaker AI 프레임워크 컨테이너](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)에서 사용할 수 있으며, [SageMaker 모델 병렬화(SMP) 라이브러리 v2에 의해 배포된 Docker 컨테이너](distributed-model-parallel-support-v2.md#distributed-model-parallel-supported-frameworks-v2)에 통합되거나 바이너리 파일로 다운로드할 수 있습니다.

**참고**  
SMDDP 라이브러리의 최신 업데이트 및 릴리스 정보를 확인하려면 [SageMaker AI 데이터 병렬 처리 라이브러리 릴리스 정보](data-parallel-release-notes.md) 섹션을 참조하세요.

**Topics**
+ [PyTorch](#distributed-data-parallel-supported-frameworks-pytorch)
+ [PyTorch Lightning](#distributed-data-parallel-supported-frameworks-lightning)
+ [Hugging Face 트랜스포머](#distributed-data-parallel-supported-frameworks-transformers)
+ [TensorFlow(사용되지 않음)](#distributed-data-parallel-supported-frameworks-tensorflow)

### PyTorch
<a name="distributed-data-parallel-supported-frameworks-pytorch"></a>


| PyTorch 버전 | SMDDP 라이브러리 버전 | SMDDP가 사전 설치된 SageMaker AI 프레임워크 컨테이너 이미지 | SMDDP가 사전 설치된 SMP Docker 이미지 | 바이너리 파일의 URL\$1\$1 | 
| --- | --- | --- | --- | --- | 
| v2.3.1 | smdistributed-dataparallel==v2.5.0 | 사용할 수 없음 | 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed\$1dataparallel-2.5.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | 현재 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.0 | smdistributed-dataparallel==v1.8.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker | 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed\$1dataparallel-1.8.0-cp310-cp310-linux\$1x86\$164.whl | 
| v1.13.1 | smdistributed-dataparallel==v1.7.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker | 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed\$1dataparallel-1.7.0-cp39-cp39-linux\$1x86\$164.whl | 
| v1.12.1 | smdistributed-dataparallel==v1.6.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker | 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed\$1dataparallel-1.6.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.11.0 | smdistributed-dataparallel==v1.4.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker | 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed\$1dataparallel-1.4.1-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 바이너리 파일의 URL은 SMDDP 라이브러리를 사용자 지정 컨테이너에 설치하기 위한 것입니다. 자세한 내용은 [SageMaker AI 분산 데이터 병렬 라이브러리로 자체 Docker 컨테이너 만들기](data-parallel-bring-your-own-container.md) 단원을 참조하십시오.

**참고**  
SMDDP 라이브러리는 [SageMaker AI 프레임워크 컨테이너](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)와 [SMP Docker 이미지가](distributed-model-parallel-support-v2.md) 사용 AWS 리전 중인에서 사용할 수 있습니다.

**참고**  
SMDDP 라이브러리 v1.4.0 이상은 PyTorch 분산(torch.distributed) 데이터 병렬화(torch.parallel.DistributedDataParallel)의 백엔드로 작동합니다. 변경 사항에 따라 PyTorch 분산형 패키지를 위한 다음과 같은 [smdistributed API](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest/smd_data_parallel_pytorch.html#pytorch-api)는 더 이상 사용되지 않습니다.  
`smdistributed.dataparallel.torch.distributed`는 더 이상 사용되지 않습니다. [torch.distributed](https://pytorch.org/docs/stable/distributed.html) 패키지를 대신 사용하세요.
`smdistributed.dataparallel.torch.parallel.DistributedDataParallel`는 더 이상 사용되지 않습니다. 대신 [torch.nn.Parallel.DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html) API를 사용하세요.
이전 버전의 라이브러리(v1.3.0 또는 이전 버전)를 사용해야 하는 경우 *SageMaker AI Python SDK 설명서*에서 [아카이브된 SageMaker AI 분산형 데이터 병렬화 설명서](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest.html#documentation-archive)를 참조하세요.

### PyTorch Lightning
<a name="distributed-data-parallel-supported-frameworks-lightning"></a>

SMDDP 라이브러리는 PyTorch용 다음 SageMaker AI 프레임워크 컨테이너 및 SMP Docker 컨테이너에서 PyTorch Lightning에 사용할 수 있습니다.

**PyTorch Lightning v2**


| PyTorch Lightning 버전 | PyTorch 버전 | SMDDP 라이브러리 버전 | SMDDP가 사전 설치된 SageMaker AI 프레임워크 컨테이너 이미지 | SMDDP가 사전 설치된 SMP Docker 이미지 | 바이너리 파일의 URL\$1\$1 | 
| --- | --- | --- | --- | --- | --- | 
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | 현재 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 

**PyTorch Lightning v1**


| PyTorch Lightning 버전 | PyTorch 버전 | SMDDP 라이브러리 버전 | SMDDP가 사전 설치된 SageMaker AI 프레임워크 컨테이너 이미지 | 바이너리 파일의 URL\$1\$1 | 
| --- | --- | --- | --- | --- | 
|  1.7.2 1.7.0 1.6.4 1.6.3 1.5.10  | 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 바이너리 파일의 URL은 SMDDP 라이브러리를 사용자 지정 컨테이너에 설치하기 위한 것입니다. 자세한 내용은 [SageMaker AI 분산 데이터 병렬 라이브러리로 자체 Docker 컨테이너 만들기](data-parallel-bring-your-own-container.md) 섹션을 참조하세요.

**참고**  
PyTorch Lightning 및 Lightning Bolts와 같은 유틸리티 라이브러리는 PyTorch DLC에 사전 설치되어 있지 않습니다. SageMaker AI PyTorch 예측기를 구문화하고 [2단계](https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator)에서 훈련 작업 요청을 제출하는 경우, SageMaker AI PyTorch 훈련 컨테이너에 `pytorch-lightning` 및 `lightning-bolts`를 설치하도록 `requirements.txt`를 제공해야 합니다.  

```
# requirements.txt
pytorch-lightning
lightning-bolts
```
훈련 스크립트 및 작업 제출과 함께 `requirements.txt` 파일을 배치할 소스 디렉터리를 지정하는 방법에 대한 자세한 내용은 *Amazon SageMaker AI Python SDK 설명서*의 [서드 파티 라이브러리 사용](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#id12)을 참조하세요.

### Hugging Face 트랜스포머
<a name="distributed-data-parallel-supported-frameworks-transformers"></a>

Hugging Face용 AWS 딥 러닝 컨테이너는 PyTorch 및 TensorFlow용 SageMaker 훈련 컨테이너를 기본 이미지로 사용합니다. Hugging Face Transformer 라이브러리 버전과 페어링된 PyTorch 및 TensorFlow 버전을 찾아보려면 최신 [Hugging Face Container](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#huggingface-training-containers) 및 [이전 Hugging Face Container 버전](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#prior-hugging-face-container-versions)을 참조하세요.

### TensorFlow(사용되지 않음)
<a name="distributed-data-parallel-supported-frameworks-tensorflow"></a>

**중요**  
SMDDP 라이브러리는 TensorFlow에 대한 지원을 중단했으며 v2.11.0 이후 TensorFlow용 DLCs에서 더 이상 사용할 수 없습니다. 다음 표에는 SMDDP 라이브러리가 설치된 TensorFlow용 이전 DLCs가 나열되어 있습니다.


| TensorFlow 버전 | SMDDP 라이브러리 버전 | 
| --- | --- | 
| 2.9.1, 2.10.1, 2.11.0 |  smdistributed-dataparallel==v1.4.1  | 
| 2.8.3 |  smdistributed-dataparallel==v1.3.0  | 

## AWS 리전
<a name="distributed-data-parallel-availablity-zone"></a>

SMDDP 라이브러리는 [AWS SageMaker AI용 딥 러닝 컨테이너](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)와 [SMP Docker 이미지가](distributed-model-parallel-support-v2.md) 사용 AWS 리전 중인 모든에서 사용할 수 있습니다.

## 지원되는 인스턴스 유형
<a name="distributed-data-parallel-supported-instance-types"></a>

SMDDP 라이브러리에는 다음과 같은 인스턴스 유형 중 하나가 필요합니다.


| 인스턴스 유형 | 
| --- | 
| ml.p3dn.24xlarge\$1 | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 

**작은 정보**  
EFA 지원 인스턴스 유형에 대한 분산 훈련을 올바르게 실행하려면 VPC의 보안 그룹을 설정하여 보안 그룹 자체에서 모든 인바운드 및 아웃바운드 트래픽을 허용하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 *Amazon EC2 사용 설명서*의 [1단계: EFA 지원 보안 그룹 준비](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security)를 참조하세요.

**중요**  
\$1 SMDDP 라이브러리는 P3 인스턴스에서 집합 통신 작업을 최적화하기 위한 지원을 중단했습니다. `ml.p3dn.24xlarge` 인스턴스에서 SMDDP 최적화 `AllReduce` 집합체를 계속 활용할 수 있지만 이 인스턴스 유형의 성능을 개선하기 위한 추가 개발 지원은 없습니다. SMDDP 최적화 `AllGather` 집합체는 P4 인스턴스에서만 사용할 수 있습니다.

인스턴스 유형의 사양은 [Amazon EC2 인스턴스 유형 페이지](https://aws.amazon.com/ec2/instance-types/)의 **가속 컴퓨팅** 섹션을 참조하세요. 인스턴스 요금에 대한 자세한 내용은 [Amazon SageMaker 요금](https://aws.amazon.com/sagemaker/pricing/)을 참조하세요.

다음과 유사한 오류 메시지가 나타나는 경우 [SageMaker AI 리소스에 대한 서비스 할당량 증가 요청](https://docs.aws.amazon.com/sagemaker/latest/dg/regions-quotas.html#service-limit-increase-request-procedure)에 나와 있는 설명을 따릅니다.

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.
```