

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Unterstützte Frameworks, AWS-Regionen, und Instanztypen
<a name="distributed-data-parallel-support"></a>

Bevor Sie die SageMaker AI Distributed Data Parallelism (SMDDP) -Bibliothek verwenden, überprüfen Sie, welche ML-Frameworks und Instanztypen unterstützt werden und ob in Ihrem Konto genügend Kontingente vorhanden sind und. AWS AWS-Region

## Unterstützte Frameworks
<a name="distributed-data-parallel-supported-frameworks"></a>

In den folgenden Tabellen sind die Deep-Learning-Frameworks und ihre Versionen aufgeführt, die von SageMaker KI und SMDDP unterstützt werden. Die SMDDP-Bibliothek ist in [SageMaker AI Framework-Containern verfügbar, in Docker-Container](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) [integriert, die über die SageMaker Model Parallelism (SMP) -Bibliothek v2 vertrieben](distributed-model-parallel-support-v2.md#distributed-model-parallel-supported-frameworks-v2) werden, oder als Binärdatei heruntergeladen werden.

**Anmerkung**  
Die neuesten Updates und Versionshinweise der SMDDP-Bibliothek finden Sie in den [SageMaker Versionshinweise zur Bibliothek für KI-Datenparallelität](data-parallel-release-notes.md).

**Topics**
+ [PyTorch](#distributed-data-parallel-supported-frameworks-pytorch)
+ [PyTorch Blitz](#distributed-data-parallel-supported-frameworks-lightning)
+ [Hugging Face Transformer](#distributed-data-parallel-supported-frameworks-transformers)
+ [TensorFlow (veraltet)](#distributed-data-parallel-supported-frameworks-tensorflow)

### PyTorch
<a name="distributed-data-parallel-supported-frameworks-pytorch"></a>


| PyTorch Version | Version der SMDDP-Bibliothek | SageMaker Mit SMDDP vorinstallierte AI Framework Container-Images | SMP-Docker-Images mit vorinstalliertem SMDDP | URL der Binärdatei\*\* | 
| --- | --- | --- | --- | --- | 
| v2.3.1 | smdistributed-dataparallel==v2.5.0 | Nicht verfügbar | 658645717510.dkr.ecr.{{<us-west-2>}}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed\_dataparallel-2.5.0-cp311-cp311-linux\_x86\_64.whl | 
| v2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | Derzeit nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\_dataparallel-2.3.0-cp311-cp311-linux\_x86\_64.whl | 
| v2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.{{<region>}}.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\_dataparallel-2.2.0-cp310-cp310-linux\_x86\_64.whl | 
| v2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.{{<region>}}.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\_dataparallel-2.1.0-cp310-cp310-linux\_x86\_64.whl | 
| v2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | Nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\_dataparallel-2.0.2-cp310-cp310-linux\_x86\_64.whl | 
| v2.0.0 | smdistributed-dataparallel==v1.8.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker | Nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed\_dataparallel-1.8.0-cp310-cp310-linux\_x86\_64.whl | 
| v1.13.1 | smdistributed-dataparallel==v1.7.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker | Nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed\_dataparallel-1.7.0-cp39-cp39-linux\_x86\_64.whl | 
| v1.12.1 | smdistributed-dataparallel==v1.6.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker | Nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed\_dataparallel-1.6.0-cp38-cp38-linux\_x86\_64.whl | 
| v1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | Nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\_dataparallel-1.5.0-cp38-cp38-linux\_x86\_64.whl | 
| v1.11.0 | smdistributed-dataparallel==v1.4.1 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker | Nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed\_dataparallel-1.4.1-cp38-cp38-linux\_x86\_64.whl | 

\*\* Die URLs der Binärdateien dienen der Installation der SMDDP-Bibliothek in benutzerdefinierten Containern. Weitere Informationen finden Sie unter [Erstellen Sie Ihren eigenen Docker-Container mit der SageMaker AI Distributed Data Parallel Library](data-parallel-bring-your-own-container.md).

**Anmerkung**  
Die SMDDP-Bibliothek ist dort verfügbar, AWS-Regionen wo die [SageMaker AI Framework-Container](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) und die [SMP-Docker-Images](distributed-model-parallel-support-v2.md) in Betrieb sind.

**Anmerkung**  
Die SMDDP-Bibliothek v1.4.0 und höher funktioniert als Backend für PyTorch verteilte (torch.distributed) Datenparallelität (torch.parallel). DistributedDataParallel). Gemäß der Änderung sind die folgenden [smdistributed-APIs](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest/smd_data_parallel_pytorch.html#pytorch-api) für das PyTorch verteilte Paket veraltet.  
`smdistributed.dataparallel.torch.distributed` ist veraltet. Verwenden Sie stattdessen das Paket [torch.distributed](https://pytorch.org/docs/stable/distributed.html).
`smdistributed.dataparallel.torch.parallel.DistributedDataParallel` ist veraltet. [Verwenden Sie torch.nn.parallel. DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html) Stattdessen API.
Wenn Sie die vorherigen Versionen der Bibliothek (v1.3.0 oder früher) verwenden müssen, finden Sie in der [archivierten Dokumentation zum SageMaker AI Distributed Data Parallelism in der *SageMaker AI Python* SDK-Dokumentation](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest.html#documentation-archive) weitere Informationen.

### PyTorch Blitz
<a name="distributed-data-parallel-supported-frameworks-lightning"></a>

Die SMDDP-Bibliothek ist für PyTorch Lightning in den folgenden SageMaker AI Framework-Containern für PyTorch und den SMP-Docker-Containern verfügbar.

**PyTorch Lightning v2**


| PyTorch Lightning-Version | PyTorch Version | Version der SMDDP-Bibliothek | SageMaker Mit SMDDP vorinstallierte AI Framework Container-Images | SMP-Docker-Images mit vorinstalliertem SMDDP | URL der Binärdatei\*\* | 
| --- | --- | --- | --- | --- | --- | 
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | Derzeit nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\_dataparallel-2.3.0-cp311-cp311-linux\_x86\_64.whl | 
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.{{<region>}}.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\_dataparallel-2.2.0-cp310-cp310-linux\_x86\_64.whl | 
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.{{<region>}}.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\_dataparallel-2.1.0-cp310-cp310-linux\_x86\_64.whl | 
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | Nicht verfügbar | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\_dataparallel-2.0.2-cp310-cp310-linux\_x86\_64.whl | 

**PyTorch Lightning v1**


| PyTorch Lightning-Version | PyTorch Version | Version der SMDDP-Bibliothek | SageMaker Mit SMDDP vorinstallierte AI Framework Container-Images | URL der Binärdatei\*\* | 
| --- | --- | --- | --- | --- | 
| 1.7.2<br />1.7.0<br />1.6.4<br />1.6.3<br />1.5.10 | 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr. {{<region>}}. amazonaws. com/pytorch-Schulung: 1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\_dataparallel-1.5.0-cp38-cp38-linux\_x86\_64.whl | 

\*\* Die URLs der Binärdateien dienen der Installation der SMDDP-Bibliothek in benutzerdefinierten Containern. Weitere Informationen finden Sie unter [Erstellen Sie Ihren eigenen Docker-Container mit der SageMaker AI Distributed Data Parallel Library](data-parallel-bring-your-own-container.md).

**Anmerkung**  
PyTorch Lightning und seine Hilfsbibliotheken wie Lightning Bolts sind in den DLCs nicht vorinstalliert. PyTorch Wenn Sie in [Schritt 2](https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator) einen SageMaker PyTorch KI-Schätzer erstellen und eine Anfrage für eine Schulungsstelle einreichen, müssen Sie die Informationen `requirements.txt` zur Installation `pytorch-lightning` und `lightning-bolts` im SageMaker PyTorch KI-Schulungscontainer angeben.  

```
# requirements.txt
pytorch-lightning
lightning-bolts
```
Weitere Informationen zur Angabe des Quellverzeichnisses, in dem die `requirements.txt` Datei zusammen mit Ihrem Schulungsskript und einer Jobübermittlung abgelegt werden soll, finden Sie unter [Verwenden von Bibliotheken von Drittanbietern](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#id12) in der *Amazon SageMaker AI Python SDK-Dokumentation*.

### Hugging Face Transformer
<a name="distributed-data-parallel-supported-frameworks-transformers"></a>

Die AWS Deep Learning Containers für Hugging Face verwenden die SageMaker Training Container für PyTorch und TensorFlow als Basisimages. Die Versionen der Hugging Face Transformers-Bibliothek und die zugehörigen Versionen finden Sie in PyTorch den neuesten [Hugging Face Containers und den [vorherigen Hugging](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#prior-hugging-face-container-versions) Face TensorFlow Container-Versionen](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#huggingface-training-containers).

### TensorFlow (veraltet)
<a name="distributed-data-parallel-supported-frameworks-tensorflow"></a>

**Wichtig**  
Die SMDDP-Bibliothek hat die Unterstützung für DLCs ab Version 2.11.0 eingestellt TensorFlow und ist in DLCs nicht mehr verfügbar. TensorFlow In der folgenden Tabelle sind frühere DLCs aufgeführt, für die die SMDDP-Bibliothek installiert war. TensorFlow 


| TensorFlow Version | Version der SMDDP-Bibliothek | 
| --- | --- | 
| 2.9.1, 2.10.1, 2.11.0 |  smdistributed-dataparallel==v1.4.1  | 
| 2.8.3 |  smdistributed-dataparallel==v1.3.0  | 

## AWS-Regionen
<a name="distributed-data-parallel-availablity-zone"></a>

Die SMDDP-Bibliothek ist überall dort verfügbar, AWS-Regionen wo die [AWS Deep Learning Containers for SageMaker AI](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) und die [SMP Docker-Images](distributed-model-parallel-support-v2.md) im Einsatz sind.

## Unterstützte Instance-Typen
<a name="distributed-data-parallel-supported-instance-types"></a>

Die SMDDP-Bibliothek erfordert einen der folgenden Instance-Typen.


| Instance-Typ | 
| --- | 
| ml.p3dn.24xlarge\* | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 

**Tipp**  
Um verteilte Schulungen für die EFA-enabled Instance-Typen ordnungsgemäß durchzuführen, sollten Sie den Datenverkehr zwischen den Instances aktivieren, indem Sie die Sicherheitsgruppe Ihrer VPC so einrichten, dass der gesamte eingehende und ausgehende Datenverkehr zur und von der Sicherheitsgruppe selbst zugelassen wird. Informationen zum Einrichten der Sicherheitsgruppenregeln finden Sie unter [Schritt 1: Eine EFA-enabled Sicherheitsgruppe vorbereiten](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security) im *Amazon EC2 EC2-Benutzerhandbuch*.

**Wichtig**  
\* Die SMDDP-Bibliothek hat die Unterstützung für die Optimierung ihrer kollektiven Kommunikationsoperationen auf P3-Instances eingestellt. Sie können zwar weiterhin das SMDDP-optimierte `AllReduce`-Kollektiv auf `ml.p3dn.24xlarge`-Instances verwenden, aber es wird keinen weiteren Entwicklungssupport geben, um die Leistung auf diesem Instance-Typ zu verbessern. Beachten Sie, dass das SMDDP-optimierte `AllGather`-Kollektiv nur für P4-Instances verfügbar ist.

Die Spezifikationen der Instance-Typen finden Sie im Abschnitt **Beschleunigte Datenverarbeitung** auf der Seite [Amazon-EC2-Instance-Typen](https://aws.amazon.com/ec2/instance-types/). Informationen zu Instance-Preisen finden Sie unter [ SageMaker Amazon-Preise](https://aws.amazon.com/sagemaker/pricing/).

Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter [Beantragen Sie eine Erhöhung des Servicekontingents für SageMaker KI-Ressourcen](https://docs.aws.amazon.com/sagemaker/latest/dg/regions-quotas.html#service-limit-increase-request-procedure).

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.
```