지원되는 프레임워크, AWS 리전 및 인스턴스 유형
SageMaker AI 분산형 데이터 병렬화(SMDDP) 라이브러리를 사용하기 전에 지원되는 ML 프레임워크와 인스턴스 유형을 확인하고 AWS 계정 및 AWS 리전에 충분한 할당량이 있는지 확인하세요.
지원되는 프레임워크
다음 표는 SageMaker AI와 SMDDP가 지원하는 딥 러닝 프레임워크와 해당 버전을 보여줍니다. SMDDP 라이브러리는 SageMaker AI 프레임워크 컨테이너
참고
SMDDP 라이브러리의 최신 업데이트 및 릴리스 정보를 확인하려면 SageMaker AI 데이터 병렬 처리 라이브러리 릴리스 정보 섹션을 참조하세요.
PyTorch
| PyTorch 버전 | SMDDP 라이브러리 버전 | SMDDP가 사전 설치된 SageMaker AI 프레임워크 컨테이너 이미지 | SMDDP가 사전 설치된 SMP Docker 이미지 | 바이너리 파일의 URL** |
|---|---|---|---|---|
| v2.3.1 | smdistributed-dataparallel==v2.5.0 |
사용할 수 없음 | 658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl |
| v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
현재 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
| v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
| v2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
| v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
| v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
| v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
| v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
| v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
| v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** 바이너리 파일의 URL은 SMDDP 라이브러리를 사용자 지정 컨테이너에 설치하기 위한 것입니다. 자세한 내용은 SageMaker AI 분산 데이터 병렬 라이브러리로 자체 Docker 컨테이너 만들기 섹션을 참조하세요.
참고
SMDDP 라이브러리는 SageMaker AI 프레임워크 컨테이너
참고
SMDDP 라이브러리 v1.4.0 이상은 PyTorch 분산(torch.distributed) 데이터 병렬화(torch.parallel.DistributedDataParallel)의 백엔드로 작동합니다. 변경 사항에 따라 PyTorch 분산형 패키지를 위한 다음과 같은 smdistributed API
-
smdistributed.dataparallel.torch.distributed는 더 이상 사용되지 않습니다. torch.distributed패키지를 대신 사용하세요. -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel는 더 이상 사용되지 않습니다. 대신 torch.nn.Parallel.DistributedDataParallelAPI를 사용하세요.
이전 버전의 라이브러리(v1.3.0 또는 이전 버전)를 사용해야 하는 경우 SageMaker AI Python SDK 설명서에서 아카이브된 SageMaker AI 분산형 데이터 병렬화 설명서
PyTorch Lightning
SMDDP 라이브러리는 PyTorch용 다음 SageMaker AI 프레임워크 컨테이너 및 SMP Docker 컨테이너에서 PyTorch Lightning에 사용할 수 있습니다.
PyTorch Lightning v2
| PyTorch Lightning 버전 | PyTorch 버전 | SMDDP 라이브러리 버전 | SMDDP가 사전 설치된 SageMaker AI 프레임워크 컨테이너 이미지 | SMDDP가 사전 설치된 SMP Docker 이미지 | 바이너리 파일의 URL** |
|---|---|---|---|---|---|
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
현재 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch Lightning v1
| PyTorch Lightning 버전 | PyTorch 버전 | SMDDP 라이브러리 버전 | SMDDP가 사전 설치된 SageMaker AI 프레임워크 컨테이너 이미지 | 바이너리 파일의 URL** |
|---|---|---|---|---|
|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** 바이너리 파일의 URL은 SMDDP 라이브러리를 사용자 지정 컨테이너에 설치하기 위한 것입니다. 자세한 내용은 SageMaker AI 분산 데이터 병렬 라이브러리로 자체 Docker 컨테이너 만들기 섹션을 참조하세요.
참고
PyTorch Lightning 및 Lightning Bolts와 같은 유틸리티 라이브러리는 PyTorch DLC에 사전 설치되어 있지 않습니다. SageMaker AI PyTorch 예측기를 구문화하고 2단계에서 훈련 작업 요청을 제출하는 경우, SageMaker AI PyTorch 훈련 컨테이너에 pytorch-lightning 및 lightning-bolts를 설치하도록 requirements.txt를 제공해야 합니다.
# requirements.txt pytorch-lightning lightning-bolts
훈련 스크립트 및 작업 제출과 함께 requirements.txt 파일을 배치할 소스 디렉터리를 지정하는 방법에 대한 자세한 내용은 Amazon SageMaker AI Python SDK 설명서의 서드 파티 라이브러리 사용
Hugging Face 트랜스포머
Hugging Face용 AWS 딥 러닝 컨테이너는 PyTorch와 TensorFlow용 SageMaker Training Containers를 기본 이미지로 사용합니다. Hugging Face Transformer 라이브러리 버전과 페어링된 PyTorch 및 TensorFlow 버전을 찾아보려면 최신 Hugging Face Container
TensorFlow(사용되지 않음)
중요
SMDDP 라이브러리는 TensorFlow에 대한 지원을 중단했으며 v2.11.0 이후 TensorFlow용 DLCs에서 더 이상 사용할 수 없습니다. 다음 표에는 SMDDP 라이브러리가 설치된 TensorFlow용 이전 DLCs가 나열되어 있습니다.
| TensorFlow 버전 | SMDDP 라이브러리 버전 |
|---|---|
| 2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
| 2.8.3 |
smdistributed-dataparallel==v1.3.0
|
AWS 리전
SMDDP 라이브러리는 AWS SageMaker AI용 딥 러닝 컨테이너
지원되는 인스턴스 유형
SMDDP 라이브러리에는 다음과 같은 인스턴스 유형 중 하나가 필요합니다.
| 인스턴스 유형 |
|---|
ml.p3dn.24xlarge* |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
작은 정보
EFA 지원 인스턴스 유형에 대한 분산 훈련을 올바르게 실행하려면 VPC의 보안 그룹을 설정하여 보안 그룹 자체에서 모든 인바운드 및 아웃바운드 트래픽을 허용하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 Amazon EC2 사용 설명서의 1단계: EFA 지원 보안 그룹 준비를 참조하세요.
중요
* SMDDP 라이브러리는 P3 인스턴스에서 집합 통신 작업을 최적화하기 위한 지원을 중단했습니다. ml.p3dn.24xlarge 인스턴스에서 SMDDP 최적화 AllReduce 집합체를 계속 활용할 수 있지만 이 인스턴스 유형의 성능을 개선하기 위한 추가 개발 지원은 없습니다. SMDDP 최적화 AllGather 집합체는 P4 인스턴스에서만 사용할 수 있습니다.
인스턴스 유형의 사양은 Amazon EC2 인스턴스 유형 페이지
다음과 유사한 오류 메시지가 나타나는 경우 SageMaker AI 리소스에 대한 서비스 할당량 증가 요청에 나와 있는 설명을 따릅니다.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.