

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Kerangka kerja yang didukung, Wilayah AWS, dan tipe instance
<a name="distributed-data-parallel-support"></a>

Sebelum menggunakan pustaka SageMaker AI distributed data parallelism (SMDDP), periksa kerangka kerja dan tipe instans yang didukung dan apakah ada cukup kuota di akun Anda dan. AWS Wilayah AWS

## Kerangka kerja yang didukung
<a name="distributed-data-parallel-supported-frameworks"></a>

Tabel berikut menunjukkan kerangka kerja pembelajaran mendalam dan versinya yang didukung SageMaker AI dan SMDDP. Pustaka SMDDP tersedia dalam [SageMaker AI Framework Containers, terintegrasi dalam wadah](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) [Docker yang didistribusikan oleh pustaka SageMaker model paralelisme (SMP) v2, atau dapat diunduh sebagai file biner](distributed-model-parallel-support-v2.md#distributed-model-parallel-supported-frameworks-v2).

**catatan**  
Untuk memeriksa pembaruan terbaru dan catatan rilis perpustakaan SMDDP, lihat. [SageMaker Catatan rilis perpustakaan paralelisme data AI](data-parallel-release-notes.md)

**Topics**
+ [PyTorch](#distributed-data-parallel-supported-frameworks-pytorch)
+ [PyTorch Petir](#distributed-data-parallel-supported-frameworks-lightning)
+ [Trafo Hugging Face](#distributed-data-parallel-supported-frameworks-transformers)
+ [TensorFlow (usang)](#distributed-data-parallel-supported-frameworks-tensorflow)

### PyTorch
<a name="distributed-data-parallel-supported-frameworks-pytorch"></a>


| PyTorch versi | Versi perpustakaan SMDDP | SageMaker Gambar AI Framework Container yang sudah diinstal sebelumnya dengan SMDDP | Gambar SMP Docker yang sudah diinstal sebelumnya dengan SMDDP | URL dari file biner\$1\$1 | 
| --- | --- | --- | --- | --- | 
| v2.3.1 | smdistributed-dataparallel==v2.5.0 | Tidak tersedia | 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed\$1dataparallel-2.5.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | Saat ini tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | Tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.0 | smdistributed-dataparallel==v1.8.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker | Tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed\$1dataparallel-1.8.0-cp310-cp310-linux\$1x86\$164.whl | 
| v1.13.1 | smdistributed-dataparallel==v1.7.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker | Tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed\$1dataparallel-1.7.0-cp39-cp39-linux\$1x86\$164.whl | 
| v1.12.1 | smdistributed-dataparallel==v1.6.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker | Tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed\$1dataparallel-1.6.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | Tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.11.0 | smdistributed-dataparallel==v1.4.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker | Tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed\$1dataparallel-1.4.1-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 File biner adalah untuk menginstal perpustakaan SMDDP dalam wadah khusus. URLs Untuk informasi selengkapnya, lihat [Buat wadah Docker Anda sendiri dengan perpustakaan paralel data terdistribusi SageMaker AI](data-parallel-bring-your-own-container.md).

**catatan**  
Pustaka SMDDP tersedia di Wilayah AWS tempat [SageMaker AI Framework Containers](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) dan [gambar SMP Docker](distributed-model-parallel-support-v2.md) berada dalam layanan.

**catatan**  
Pustaka SMDDP v1.4.0 dan yang lebih baru berfungsi sebagai backend paralelisme data terdistribusi ( PyTorch torch.distributed) (torch.parallel. DistributedDataParallel). Sesuai dengan perubahan, [smdistributed](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest/smd_data_parallel_pytorch.html#pytorch-api) berikut APIs untuk paket PyTorch terdistribusi telah usang.  
`smdistributed.dataparallel.torch.distributed`sudah usang. Gunakan paket [torch.distributed](https://pytorch.org/docs/stable/distributed.html) sebagai gantinya.
`smdistributed.dataparallel.torch.parallel.DistributedDataParallel`sudah usang. Gunakan [torch.nn.parallel. DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html) API sebagai gantinya.
Jika Anda perlu menggunakan versi pustaka sebelumnya (v1.3.0 atau sebelumnya), lihat dokumentasi [paralelisme data terdistribusi SageMaker AI yang diarsipkan dalam dokumentasi](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest.html#documentation-archive) AI *SageMaker Python* SDK.

### PyTorch Petir
<a name="distributed-data-parallel-supported-frameworks-lightning"></a>

Pustaka SMDDP tersedia untuk PyTorch Lightning di Wadah Kerangka SageMaker AI berikut untuk PyTorch dan wadah SMP Docker.

**PyTorch Petir v2**


| PyTorch Versi petir | PyTorch versi | Versi perpustakaan SMDDP | SageMaker Gambar AI Framework Container yang sudah diinstal sebelumnya dengan SMDDP | Gambar SMP Docker yang sudah diinstal sebelumnya dengan SMDDP | URL dari file biner\$1\$1 | 
| --- | --- | --- | --- | --- | --- | 
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | Saat ini tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | Tidak tersedia | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 

**PyTorch Petir v1**


| PyTorch Versi petir | PyTorch versi | Versi perpustakaan SMDDP | SageMaker Gambar AI Framework Container yang sudah diinstal sebelumnya dengan SMDDP | URL dari file biner\$1\$1 | 
| --- | --- | --- | --- | --- | 
|  1.7.2 1.7.0 1.6.4 1.6.3 1.5.10  | 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 File biner adalah untuk menginstal perpustakaan SMDDP dalam wadah khusus. URLs Untuk informasi selengkapnya, lihat [Buat wadah Docker Anda sendiri dengan perpustakaan paralel data terdistribusi SageMaker AI](data-parallel-bring-your-own-container.md).

**catatan**  
PyTorch Lightning dan perpustakaan utilitasnya seperti Lightning Bolts tidak diinstal sebelumnya di file. PyTorch DLCs Saat Anda membuat PyTorch estimator SageMaker AI dan mengirimkan permintaan pekerjaan pelatihan di [Langkah 2](https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator), Anda perlu menyediakan `requirements.txt` untuk menginstal `pytorch-lightning` dan `lightning-bolts` dalam wadah PyTorch pelatihan SageMaker AI.  

```
# requirements.txt
pytorch-lightning
lightning-bolts
```
Untuk informasi selengkapnya tentang menentukan direktori sumber untuk menempatkan `requirements.txt` file bersama dengan skrip pelatihan dan pengiriman pekerjaan, lihat [Menggunakan pustaka pihak ketiga](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#id12) dalam dokumentasi Amazon *AI SageMaker Python* SDK.

### Trafo Hugging Face
<a name="distributed-data-parallel-supported-frameworks-transformers"></a>

 AWS Deep Learning Containers untuk Hugging Face menggunakan SageMaker Wadah Pelatihan PyTorch untuk TensorFlow dan sebagai gambar dasarnya. [Untuk mencari versi pustaka Hugging Face Transformers dan PyTorch dipasangkan TensorFlow dan versi, lihat Wadah Wajah Pelukan terbaru [dan Versi Wadah Wajah Pelukan](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#huggingface-training-containers) Sebelumnya.](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#prior-hugging-face-container-versions)

### TensorFlow (usang)
<a name="distributed-data-parallel-supported-frameworks-tensorflow"></a>

**penting**  
Pustaka SMDDP menghentikan dukungan untuk TensorFlow dan tidak lagi tersedia di TensorFlow lebih dari DLCs v2.11.0. Tabel berikut mencantumkan sebelumnya DLCs untuk TensorFlow dengan pustaka SMDDP diinstal.


| TensorFlow versi | Versi perpustakaan SMDDP | 
| --- | --- | 
| 2.9.1, 2.10.1, 2.11.0 |  smdistributed-dataparallel==v1.4.1  | 
| 2.8.3 |  smdistributed-dataparallel==v1.3.0  | 

## Wilayah AWS
<a name="distributed-data-parallel-availablity-zone"></a>

Pustaka SMDDP tersedia di semua Wilayah AWS tempat [AWS Deep Learning Containers untuk SageMaker AI](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) dan [gambar SMP Docker](distributed-model-parallel-support-v2.md) berada dalam layanan.

## Tipe instans yang didukung
<a name="distributed-data-parallel-supported-instance-types"></a>

Pustaka SMDDP membutuhkan salah satu jenis contoh berikut.


| Tipe instans | 
| --- | 
| ml.p3dn.24xlarge\$1 | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 

**Tip**  
Untuk menjalankan pelatihan terdistribusi dengan benar pada jenis instans yang mendukung EFA, Anda harus mengaktifkan lalu lintas antar instans dengan menyiapkan grup keamanan VPC Anda untuk memungkinkan semua lalu lintas masuk dan keluar ke dan dari grup keamanan itu sendiri. Untuk mempelajari cara mengatur aturan grup keamanan, lihat [Langkah 1: Mempersiapkan grup keamanan berkemampuan EFA di Panduan](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security) Pengguna *Amazon EC2*.

**penting**  
\$1 Perpustakaan SMDDP telah menghentikan dukungan untuk mengoptimalkan operasi komunikasi kolektifnya pada instans P3. Meskipun Anda masih dapat menggunakan `AllReduce` kolektif SMDDP yang dioptimalkan pada `ml.p3dn.24xlarge` instance, tidak akan ada dukungan pengembangan lebih lanjut untuk meningkatkan kinerja pada jenis instance ini. Perhatikan bahwa `AllGather` kolektif yang dioptimalkan SMDDP hanya tersedia untuk instance P4.

Untuk spesifikasi jenis instans, lihat bagian **Komputasi Akselerasi** di halaman Jenis [Instans Amazon EC2](https://aws.amazon.com/ec2/instance-types/). Untuk informasi tentang harga instans, lihat [ SageMaker Harga Amazon](https://aws.amazon.com/sagemaker/pricing/).

Jika Anda menemukan pesan kesalahan yang mirip dengan berikut ini, ikuti petunjuk di [Minta peningkatan kuota layanan untuk sumber daya SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/regions-quotas.html#service-limit-increase-request-procedure).

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.
```