

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Notes de mise à jour pour la bibliothèque de parallélisme des SageMaker modèles
<a name="model-parallel-release-notes"></a>

Consultez les notes de publication suivantes pour suivre les dernières mises à jour de la bibliothèque de parallélisme des SageMaker modèles (SMP). Si vous avez des questions supplémentaires concernant la bibliothèque SMP, contactez l’équipe du service SMP à l’adresse `sm-model-parallel-feedback@amazon.com`.

## La bibliothèque de parallélisme des SageMaker modèles v2.8.0
<a name="model-parallel-release-notes-20250306"></a>

*Date : 1er avril 2025*

### Mises à jour de la bibliothèque SMP
<a name="model-parallel-release-notes-20250306-smp-lib"></a>

**Corrections de bugs**
+ L’écrêtage des normes de gradient SMP prend désormais en charge le déchargement d’activation.

### Conteneurs SMP Docker et Enroot
<a name="model-parallel-release-notes-20250306-smp-docker"></a>

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur dans le SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, SageMaker AI récupère automatiquement les conteneurs SMP Docker. Pour utiliser cette version de SMP v2, mettez à niveau votre SDK SageMaker Python vers une version ultérieure`v2.243.0`.

**Mises à jour des devises**
+ Ajout du support pour la PyTorch version 2.5.1
+ Mise à niveau du support CUDA vers la version 12.4
+ Mise à niveau du support NCCL vers la version 2.23.4
+ Mise à niveau de la bibliothèque SMDDP vers la version 2.6.0

**Détails du conteneur**
+ Conteneur Docker SMP pour PyTorch v2.5.1 avec CUDA v12.4

  ```
  658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124
  ```
+ Conteneur SMP Enroot pour PyTorch v2.5.1 avec CUDA v12.4

  ```
  https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh
  ```
+ Packages préinstallés
  + Bibliothèque SMP v2.8.0
  + Bibliothèque SMDDP v2.6.0
  + CUDNN v9.4.0
  + FlashAttention v2.5.8
  + TransformerEngine v1.10
  + Megatron v0.8.0
  + Transformeurs Hugging Face v4.44.2
  + Bibliothèque Hugging Face de jeux de données v2.19.0
  + EFA v1.36.0
  + NCCL v2.23.4
  + AWS-OFI-NCCL v1.13.2

### Canal Conda SMP
<a name="model-parallel-release-notes-20250306-smp-conda-channel"></a>

Le compartiment S3 suivant est le canal Conda public de la bibliothèque SMP, hébergé par l’équipe du service SMP. Si vous souhaitez installer la bibliothèque SMP v2 dans un environnement tel que des SageMaker HyperPod clusters, utilisez ce canal Conda pour installer correctement la bibliothèque SMP.
+ `https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/`

Pour plus d’informations sur les canaux Conda en général, consultez [Channels](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html) dans la *documentation Conda*.

## La bibliothèque de parallélisme des SageMaker modèles v2.7.0
<a name="model-parallel-release-notes-20241204"></a>

*Date : 04 décembre 2024*

### Mises à jour de la bibliothèque SMP
<a name="model-parallel-release-notes-20241204-smp-lib"></a>

**Nouvelles fonctionnalités**
+ Ajout de la prise en charge de [SageMaker HyperPod recettes](sagemaker-hyperpod-recipes.md).

### Conteneurs SMP Docker et Enroot
<a name="model-parallel-release-notes-20241204-smp-docker"></a>

L'équipe de la bibliothèque SMP distribue les conteneurs Docker et Enroot en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur du SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, les conteneurs SMP SageMaker Docker sont automatiquement récupérés. Pour utiliser cette version de SMP v2, mettez à niveau votre SDK SageMaker Python vers une version ultérieure`v2.237.0`.

**Détails du conteneur**
+ Conteneur Docker SMP pour PyTorch v2.4.1 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.<us-west-2>.smdistributed-modelparallel:2.4.1-gpu-py311-cu121
  ```
+ Conteneur SMP Enroot pour PyTorch v2.4.1 avec CUDA v12.1

  ```
  https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
  ```
+ Packages préinstallés
  + Bibliothèque SMP v2.7.0
  + Bibliothèque SMDDP v2.5.0
  + CUDNN v9.4.0
  + FlashAttention v2.5.8
  + TransformerEngine v1.10
  + Megatron v0.8.0
  + Transformeurs Hugging Face v4.44.2
  + Bibliothèque Hugging Face de jeux de données v2.19.0
  + EFA v1.32.0
  + NCCL v2.21.5

### Canal Conda SMP
<a name="model-parallel-release-notes-20241204-smp-conda-channel"></a>

Le compartiment S3 suivant est le canal Conda public de la bibliothèque SMP, hébergé par l’équipe du service SMP. Si vous souhaitez installer la bibliothèque SMP v2 dans un environnement Conda tel que des SageMaker HyperPod clusters, utilisez ce canal Conda pour installer correctement la bibliothèque SMP.
+ `https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/`

Pour plus d’informations sur les canaux Conda en général, consultez [Channels](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html) dans la *documentation Conda*.

## La bibliothèque de parallélisme des SageMaker modèles v2.6.1
<a name="model-parallel-release-notes-20241031"></a>

*Date : 31 octobre 2024*

### Mises à jour de la bibliothèque SMP
<a name="model-parallel-release-notes-20241031-smp-lib"></a>

**Corrections de bugs**
+ Correction d’un problème `ImportError` qui se produisait lors de l’utilisation d’anciens scripts d’entraînement avec SMP v2.6.0. Cela corrige la rétro-incompatibilité avec SMP v2.6.0.
+ Ajout d’un `DeprecationWarning` pour `torch.sagemaker.distributed.fsdp.checkpoint`. Ce module sera obsolète et supprimé dans SMP v2.7.0. Si vous n’utilisez actuellement pas `torch.sagemaker.distributed.fsdp.checkpoint` dans votre code, vous devez prévoir de mettre à jour vos scripts avant la sortie de SMP v2.7.0 afin d’éviter de futurs problèmes.
+ Correction d’un problème de rétrocompatibilité identifié dans SMP v2.6.0. Ce problème était lié à l’obsolescence de la méthode de points de contrôle `USE_PG_WITH_UTIL` dans SMP v2.6.0, qui a rompu la rétrocompatibilité avec les versions précédentes des scripts d’entraînement. Pour résoudre ce problème, réexécutez vos tâches de PyTorch formation afin de récupérer le dernier conteneur SMP fourni avec SMP v2.6.1.

### Conteneurs Docker SMP
<a name="model-parallel-release-notes-20241031-smp-docker"></a>

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur dans le SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, SageMaker AI récupère automatiquement les conteneurs SMP Docker.

**Détails du conteneur**
+ Conteneur Docker SMP pour PyTorch v2.4.1 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121
  ```
+ Packages préinstallés
  + Bibliothèque SMP v2.6.1
  + Bibliothèque SMDDP v2.5.0
  + CUDNN v9.4.0
  + FlashAttention v2.5.8
  + TransformerEngine v1.10
  + Megatron v0.8.0
  + Transformeurs Hugging Face v4.44.2
  + Bibliothèque Hugging Face de jeux de données v2.19.0
  + EFA v1.32.0
  + NCCL v2.21.5

### Canal Conda SMP
<a name="model-parallel-release-notes-20241031-smp-conda-channel"></a>

Le compartiment S3 suivant est le canal Conda public de la bibliothèque SMP, hébergé par l’équipe du service SMP. Si vous souhaitez installer la bibliothèque SMP v2 dans un environnement de ressources de calcul hautement personnalisables telles que des SageMaker HyperPod clusters, utilisez ce canal Conda pour installer correctement la bibliothèque SMP.
+ `https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/`

Pour plus d’informations sur les canaux Conda en général, consultez [Channels](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html) dans la *documentation Conda*.

## La bibliothèque de parallélisme des SageMaker modèles v2.6.0
<a name="model-parallel-release-notes-20241017"></a>

*Date : 17 octobre 2024*

### Mises à jour de la bibliothèque SMP
<a name="model-parallel-release-notes-20241017-smp-lib"></a>

**Nouvelles fonctionnalités**
+ Ajout de la prise en charge des configurations de modèles LLM suivantes. Vous pouvez commencer à utiliser le [Parallélisme de contexte](model-parallel-core-features-v2-context-parallelism.md) et le [Parallélisme de tenseur](model-parallel-core-features-v2-tensor-parallelism.md).
  + [Llama3.1 8B](https://huggingface.co/meta-llama/Llama-3.1-8B)
  + [Llama3.1 70B](https://huggingface.co/meta-llama/Llama-3.1-70B)
  + [Mistral 7B](https://huggingface.co/mistralai/Mistral-7B-v0.3)
+ Ajout de la prise en charge du [Parallélisme de tenseur](model-parallel-core-features-v2-tensor-parallelism.md) pour les configurations des modèles Mixtral suivants.
  + [Mixtral 8x7B](https://huggingface.co/mistralai/Mixtral-8x7B-v0.1)
  + [Mixtral 8x22B](https://huggingface.co/mistralai/Mixtral-8x22B-v0.1)
+ Ajout de la prise en charge d'une implémentation AllGather basée sur le parallélisme contextuel qui utilise le collectif de AllGather communication pour obtenir la séquence complète des tenseurs. key-and-value Les implémentations disponibles sont `p2p` et `all_gather`. L'`p2p`implémentation utilise des appels d' peer-to-peerenvoi/réception pour l'accumulation de tenseurs key-and-value (KV) pendant le calcul de l'attention, s'exécutant de manière asynchrone et permettant à la communication de se chevaucher avec le calcul. D’autre part, l’implémentation `all_gather` utilise l’opération de communication collective `AllGather` pour l’accumulation de tenseurs KV. Pour découvrir comment appliquer ces implémentations de parallélisme de contexte, consultez [Parallélisme de contexte](model-parallel-core-features-v2-context-parallelism.md).
+ Ajout du support pour le réglage de la valeur thêta de la vectorisation de la position rotative (RoPE).

**Corrections de bugs**
+ Correction du bogue en raison duquel la vectorisation de la position rotative (RoPE) n’est pas correctement initialisée pendant le pré-entraînement lorsque le paramètre différé est activé.

**Problèmes connus**
+ Transformer Engine ne prend actuellement pas en charge le parallélisme contextuel ou l'activation de l'attention FP8 à la fenêtre coulissante. Ainsi, la version SMP des transformateurs Mistral ne prend pas en charge le parallélisme contextuel ni l' FP8 apprentissage lorsque la configuration des fenêtres coulissantes est définie sur une valeur non nulle.

### Conteneurs Docker SMP
<a name="model-parallel-release-notes-20241017-smp-docker"></a>

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur dans le SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, SageMaker AI récupère automatiquement les conteneurs SMP Docker.

**Mises à jour des devises**
+ Mise à niveau PyTorch vers la version 2.4.1
+ Mise à niveau de Megatron vers la version 0.8.0
+ Mise à niveau de la TransformerEngine bibliothèque vers la version v1.10
+ Mise à niveau de Transformers vers la version 4.44.2
+ Mise à niveau de cuDNN vers la version 9.4.0.58

**Détails du conteneur**
+ Conteneur Docker SMP pour PyTorch v2.4.1 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121
  ```
+ Packages préinstallés
  + Bibliothèque SMP v2.6.0
  + Bibliothèque SMDDP v2.5.0
  + CUDNN v9.4.0
  + FlashAttention v2.5.8
  + TransformerEngine v1.10
  + Megatron v0.8.0
  + Transformeurs Hugging Face v4.44.2
  + Bibliothèque Hugging Face de jeux de données v2.19.0
  + EFA v1.32.0
  + NCCL v2.21.5

### Canal Conda SMP
<a name="model-parallel-release-notes-20241017-smp-conda-channel"></a>

Le compartiment S3 suivant est le canal Conda public de la bibliothèque SMP, hébergé par l’équipe du service SMP. Si vous souhaitez installer la bibliothèque SMP v2 dans un environnement de ressources de calcul hautement personnalisables telles que des SageMaker HyperPod clusters, utilisez ce canal Conda pour installer correctement la bibliothèque SMP.
+ `https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/`

Pour plus d’informations sur les canaux Conda en général, consultez [Channels](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html) dans la *documentation Conda*.

## La bibliothèque de parallélisme des SageMaker modèles v2.5.0
<a name="model-parallel-release-notes-20240828"></a>

*Date : 28 août 2024*

### Mises à jour de la bibliothèque SMP
<a name="model-parallel-release-notes-20240828-smp-lib"></a>

**Nouvelles fonctionnalités**
+ Ajout de la prise en charge de l'entraînement à précision mixte utilisant le format de FP8 données sur les instances P5 pour le modèle Mixtral.
  + Les configurations Mixtral prises en charge sont 8x7B et 8x22B. Pour en savoir plus, consultez [Entraînement de précision mixte avec des FP8 instances P5 à l'aide de Transformer Engine](model-parallel-core-features-v2-mixed-precision.md#model-parallel-core-features-v2-mixed-precision-fp8-training-on-p5).
+ Ajout de la prise en charge du [Parallélisme de contexte](model-parallel-core-features-v2-context-parallelism.md) pour les configurations des modèles suivants.
  + Llama-v2 : 7B et 70B
  + Llama-v3 : 8B et 70B
  + GPT-NeoX : 20B
+ Ajout de la prise en charge de l’enregistrement des points de contrôle de façon asynchrone. Pour en savoir plus, consultez [Points de contrôle à l’aide de la SMP](model-parallel-core-features-v2-checkpoints.md).
  + Prise en charge de l’enregistrement des points de contrôle directement dans S3 sans utiliser Amazon EBS ni des serveurs de fichiers.

**Corrections de bugs**
+ Résolution d’un problème qui provoquait une perte initiale étonnamment élevée pendant le peaufinage de Llama lors du chargement d’un point de contrôle de modèle pré-entraîné et de l’utilisation du parallélisme de tenseur.

**Remarques**
+ Pour utiliser le point de contrôle d'activation pour Mixtral avec une précision FP8 mixte, vous devez contrôler séparément la couche d'attention et la couche experte. Pour un exemple de configuration correcte, consultez l'[exemple de script d'entraînement](https://github.com/aws/amazon-sagemaker-examples/blob/main/training/distributed_training/pytorch/model_parallel_v2/shared-scripts/train_utils.py) dans le *référentiel Amazon SageMaker AI Examples*.

**Problèmes connus**
+ Le type d’équilibrage de charge équilibré dans la configuration MoE ([`torch.sagemaker.moe.moe_config.MoEConfig`](distributed-model-parallel-v2-reference.md#model-parallel-v2-torch-sagemaker-reference-moe)) est actuellement incompatible avec les points de contrôle d’activation.
+ Avec le parallélisme de contexte, GPT-NeoX montre une régression des performances à la fois lors du pré-entraînement et lors du peaufinage.
+ Pour les instances GPT-NeoX sur P4, le chargement direct de poids à partir d’un modèle transformé initialisé à paramètres différés dans un modèle de transformeur Hugging Face entraîne un décalage de perte lors de la première étape.

### Conteneurs Docker SMP
<a name="model-parallel-release-notes-20240828-smp-docker"></a>

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur dans le SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, SageMaker AI récupère automatiquement les conteneurs SMP Docker. Pour utiliser cette version de SMP v2, mettez à niveau votre SDK SageMaker Python vers la version 2.224.0 ou ultérieure.

**Mises à jour des devises**
+ Mise à niveau de la FlashAttention bibliothèque vers la version 2.5.8
+ Mise à niveau de la bibliothèque Transformer Engine vers la version 1.8
  + Si vous souhaitez installer Transformer Engine dans un environnement Conda, vous devez générer un build à partir du code source et sélectionner manuellement les correctifs spécifiques en amont ([744624d](https://github.com/NVIDIA/TransformerEngine/commit/744624d004f4514ffbaa90ac83e214311c86c607), [27c6342](https://github.com/NVIDIA/TransformerEngine/commit/27c6342ea8ad88034bf04b587dd13cb6088d2474), [7669bf3](https://github.com/NVIDIA/TransformerEngine/commit/7669bf3da68074517b134cd6acebd04b221fd545)).

**Détails du conteneur**
+ Conteneur Docker SMP pour PyTorch v2.3.1 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
  ```

  Pour obtenir la liste complète des régions prises en charge, consultez [Régions AWS](distributed-data-parallel-support.md#distributed-data-parallel-availablity-zone).
+ Packages préinstallés
  + Bibliothèque SMP v2.5.0
  + Bibliothèque SMDDP v2.3.0
  + CUDNN v8.9.7.29
  + FlashAttention v2.5.8
  + TransformerEngine v1.8
  + Megatron v0.7.0
  + Transformeurs Hugging Face v4.40.1
  + Bibliothèque Hugging Face de jeux de données v2.19.0
  + EFA v1.32.0
  + NCCL v2.21.5

### Canal Conda SMP
<a name="model-parallel-release-notes-20240828-smp-conda-channel"></a>

Le compartiment S3 suivant est le canal Conda public de la bibliothèque SMP, hébergé par l’équipe du service SMP. Si vous souhaitez installer la bibliothèque SMP v2 dans un environnement de ressources de calcul hautement personnalisables telles que des SageMaker HyperPod clusters, utilisez ce canal Conda pour installer correctement la bibliothèque SMP.
+ `https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/`

Pour plus d’informations sur les canaux Conda en général, consultez [Channels](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html) dans la *documentation Conda*.

## La bibliothèque de parallélisme des SageMaker modèles v2.4.0
<a name="model-parallel-release-notes-20240620"></a>

*Date : 20 juin 2024*

### Mises à jour de la bibliothèque SMP
<a name="model-parallel-release-notes-20240620-lib"></a>

**Corrections de bugs**
+ Correction d’un bogue qui provoquait des formes logit incorrectes lorsque les étiquettes ne sont pas transmises lors de la transmission vers l’avant à l’aide du transformeur SMP.

**Mises à jour des devises**
+ Ajout du support pour la PyTorch version 2.3.1.
+ Ajout de la prise en charge de Python 3.11.
+ Ajout de la prise en charge de la bibliothèque des transformeurs Hugging Face v4.40.1.

**Dépréciations**
+ Arrêt de la prise en charge de Python v3.10.
+ Arrêt de la prise en charge des versions de la bibliothèque des transformeurs Hugging Face antérieures à v4.40.1.

**Autres modifications**
+ Inclusion d’un patch pour basculer l’enregistrement des tenseurs dédupliqués sur différents rangs. Pour en savoir plus, consultez le [fil de discussion](https://github.com/pytorch/pytorch/pull/126569) dans le PyTorch GitHub référentiel.

**Problèmes connus**
+ Il existe un problème connu selon lequel la perte peut connaître un pic, puis reprendre à une valeur de perte plus élevée pendant le peaufinage du modèle Llama-3 70B avec le parallélisme de tenseur.

### Conteneurs Docker SMP
<a name="model-parallel-release-notes-20240620-container"></a>

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur dans le SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, SageMaker AI récupère automatiquement les conteneurs SMP Docker. Pour utiliser cette version de SMP v2, mettez à niveau votre SDK SageMaker Python vers la version 2.224.0 ou ultérieure.

**Mises à jour des devises**
+ Mise à niveau de la bibliothèque SMDDP vers la version 2.3.0.
+ Mise à niveau de la bibliothèque NCCL vers la version 2.21.5.
+ Mise à niveau du logiciel EFA vers la version v1.32.0.

**Dépréciations**
+ Arrêt de l’installation de la bibliothèque [Torch Distributed Experimental (torchdistX)](https://pytorch.org/torchdistx/latest/index.html).

**Détails du conteneur**
+ Conteneur Docker SMP pour PyTorch v2.3.1 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
  ```
+ Packages préinstallés
  + Bibliothèque SMP v2.4.0
  + Bibliothèque SMDDP v2.3.0
  + CUDNN v8.9.7.29
  + FlashAttention v2.3.3
  + TransformerEngine v1.2.1
  + Transformeurs Hugging Face v4.40.1
  + Bibliothèque Hugging Face de jeux de données v2.19.0
  + EFA v1.32.0
  + NCCL v2.21.5

### Canal Conda SMP
<a name="model-parallel-release-notes-20240620-conda-channel"></a>

Le compartiment S3 suivant est le canal Conda public de la bibliothèque SMP, hébergé par l’équipe du service SMP. Si vous souhaitez installer la bibliothèque SMP v2 dans un environnement de ressources de calcul hautement personnalisables telles que des SageMaker HyperPod clusters, utilisez ce canal Conda pour installer correctement la bibliothèque SMP.
+ `https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/`

Pour plus d’informations sur les canaux Conda en général, consultez [Channels](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html) dans la *documentation Conda*.

## La bibliothèque de parallélisme des SageMaker modèles v2.3.1
<a name="model-parallel-release-notes-20240509"></a>

*Date : 9 mai 2024*

**Corrections de bugs**
+ Correction d’un problème `ImportError` lors de l’utilisation de `moe_load_balancing=balanced` dans [`torch.sagemaker.moe.moe_config.MoEConfig`](distributed-model-parallel-v2-reference.md#model-parallel-v2-torch-sagemaker-reference-moe) pour le parallélisme expert.
+ Correction d’un problème de peaufinage en raison duquel l’appel [`torch.sagemaker.transform`](distributed-model-parallel-v2-reference.md#model-parallel-v2-torch-sagemaker-reference-transform) génère `KeyError` quand `load_state_dict_from_rank0` est activé.
+ Correction d'une erreur out-of-memory (OOM) générée lors du chargement de grands modèles Mixture of Experts (MoE), tels que Mixtral 8x22B, pour un réglage précis.

**Conteneurs Docker SMP**

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Cette version intègre les corrections de bogues susmentionnées dans l’image Docker SMP suivante.
+ Conteneur Docker SMP pour PyTorch v2.2.0 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
  ```

## La bibliothèque de parallélisme des SageMaker modèles v2.3.0
<a name="model-parallel-release-notes-20240409"></a>

*Date : 11 avril 2024*

**Nouvelles fonctionnalités**
+ Ajout d’une nouvelle caractéristique de base, le *parallélisme expert*, pour prendre en charge les modèles de transformeurs MoE. Pour en savoir plus, consultez [Parallélisme expert](model-parallel-core-features-v2-expert-parallelism.md).

**Conteneurs Docker SMP**

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur du SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, les conteneurs SMP SageMaker Docker sont automatiquement récupérés. Pour utiliser cette version de SMP v2, mettez à niveau votre SDK SageMaker Python vers la version 2.214.4 ou ultérieure.
+ Conteneur Docker SMP pour PyTorch v2.2.0 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
  ```
  + Packages préinstallés dans ce conteneur Docker
    + Bibliothèque SMDDP v2.2.0
    + CUDNN v8.9.5.29
    + FlashAttention v2.3.3
    + TransformerEngine v1.2.1
    + Transformeurs Hugging Face v4.37.1
    + Bibliothèque Hugging Face de jeux de données v2.16.1
    + Megatron-core 0.5.0
    + EFA v1.30.0
    + NCCL v2.19.4

## La bibliothèque de parallélisme des SageMaker modèles v2.2.0
<a name="model-parallel-release-notes-20240307"></a>

*Date : 07 mars 2024*

**Nouvelles fonctionnalités**
+ Ajout de la prise en charge de l'[FP8 entraînement](model-parallel-core-features-v2-mixed-precision.md#model-parallel-core-features-v2-mixed-precision-fp8-training-on-p5) des modèles de transformateurs Hugging Face suivants sur des instances P5 avec intégration de Transformer Engine :
  + GPT-NeoX
  + Llama 2

**Correctifs de bogue**
+ Correction d’un bogue en raison duquel la contiguïté des tenseurs n’était pas garantie avant l’appel collectif `AllGather` lors de l’entraînement de parallélisme de tenseur.

**Mises à jour monétaires**
+ Ajout du support pour la PyTorch version 2.2.0.
+ Mise à niveau de la bibliothèque SMDDP vers la version 2.2.0. 
+ Mise à niveau de la FlashAttention bibliothèque vers la version 2.3.3.
+ Mise à niveau de la bibliothèque NCCL vers la version 2.19.4.

**Obsolète**
+ Arrêt de la prise en charge des versions de Transformer Engine antérieures à la version 1.2.0.

**Problèmes connus**
+ La caractéristique [Déchargement d’activation](model-parallel-core-features-v2-pytorch-activation-offloading.md) SMP ne fonctionne pas actuellement. Utilisez plutôt le déchargement PyTorch d'activation natif.

**Autres modifications**
+ Un correctif a été inclus pour corriger la régression des performances évoquée dans le fil de discussion sur [https://github.com/pytorch/pytorch/issues/117748](https://github.com/pytorch/pytorch/issues/117748) dans le référentiel. PyTorch GitHub 

**Conteneurs Docker SMP**

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur dans le SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, SageMaker AI récupère automatiquement les conteneurs SMP Docker. Pour utiliser cette version de SMP v2, mettez à niveau votre SDK SageMaker Python vers la version 2.212.0 ou ultérieure.
+ Conteneur Docker SMP pour PyTorch v2.2.0 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
  ```
  + Disponible pour les instances P4d, P4de et P5
  + Packages préinstallés dans ce conteneur Docker
    + Bibliothèque SMDDP v2.2.0
    + CUDNN v8.9.5.29
    + FlashAttention v2.3.3
    + TransformerEngine v1.2.1
    + Transformeurs Hugging Face v4.37.1
    + Bibliothèque Hugging Face de jeux de données v2.16.1
    + EFA v1.30.0
    + NCCL v2.19.4

## La bibliothèque de parallélisme des SageMaker modèles v2.1.0
<a name="model-parallel-release-notes-20240206"></a>

*Date : 6 février 2024*

**Mises à jour monétaires**
+ Ajout du support pour la PyTorch version 2.1.2.

**Obsolète**
+ Arrêt de la prise en charge des transformeurs Hugging Face v4.31.0.

**Problèmes connus**
+ Il a été découvert que le peaufinage du modèle Llama 2 Hugging Face avec `attn_implementation=flash_attention_2` et FSDP entraîne une divergence du modèle. Pour référence, consultez le [ticket d'émission](https://github.com/huggingface/transformers/issues/28826) dans le référentiel *Hugging Face GitHub Transformers*. Pour éviter le problème de divergence, utilisez `attn_implementation=sdpa`. Autrement, utilisez l’implémentation du modèle de transformeur SMP en configurant `use_smp_implementation=True`.

**Conteneurs Docker SMP**

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur du SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, les conteneurs SMP SageMaker Docker sont automatiquement récupérés. Pour utiliser cette version de SMP v2, mettez à niveau votre SDK SageMaker Python vers la version 2.207.0 ou ultérieure.
+ Conteneur Docker SMP pour PyTorch v2.1.2 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
  ```
  + Disponible pour les instances P4d, P4de et P5
  + Packages préinstallés dans ce conteneur Docker
    + Bibliothèque SMDDP v2.1.0
    + CUDNN v8.9.5.29
    + FlashAttention v2.3.3
    + TransformerEngine v1.2.1
    + Transformeurs Hugging Face v4.37.1
    + Bibliothèque Hugging Face de jeux de données v2.16.1
    + EFA v1.30.0

**Canal Conda SMP**

Le compartiment S3 suivant est le canal Conda public hébergé par l’équipe du service SMP. Si vous souhaitez installer la bibliothèque SMP v2 dans un environnement de ressources de calcul hautement personnalisables telles que des SageMaker HyperPod clusters, utilisez ce canal Conda pour installer correctement la bibliothèque SMP.
+ `https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/`

Pour plus d’informations sur les canaux Conda en général, consultez [Channels](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html) dans la *documentation Conda*.

## La bibliothèque de parallélisme des SageMaker modèles v2.0.0
<a name="model-parallel-release-notes-20231219"></a>

*Date : 19 décembre 2023*

**Nouvelles fonctionnalités**

Publication de la bibliothèque de parallélisme des SageMaker modèles (SMP) v2.0.0 avec les nouvelles offres suivantes.
+ Un nouveau package `torch.sagemaker`, entièrement remanié par rapport au package `smdistributed.modelparallel.torch` précédent dans SMP v1.x. 
+ Support pour la version PyTorch 2.0.1.
+ Support pour le PyTorch FSDP.
+ Implémentation du parallélisme de tenseur en intégrant la bibliothèque [Transformer Engine](https://docs.nvidia.com/deeplearning/transformer-engine/index.html).
+ Support à la fois pour [SageMaker la formation](train-model.md) et [SageMaker HyperPod](sagemaker-hyperpod.md).

**Évolutions**
+ SMP v2 l'a APIs entièrement remanié et fournit le package. `torch.sagemaker` La plupart du temps, il suffit d’initialiser avec le module `torch.sagemaker.init()` et de transmettre les paramètres de configuration du parallélisme des modèles. Avec ce nouveau package, vous pouvez considérablement simplifier les modifications de code dans votre script d’entraînement. Pour en savoir plus sur l’adaptation de votre script d’entraînement pour utiliser SMP v2, consultez [Utiliser la bibliothèque de parallélisme des SageMaker modèles v2](model-parallel-use-api-v2.md).
+ Si vous avez utilisé SMP v1 pour entraîner des modèles de transformeur Hugging Face et que vous souhaitez réutiliser les modèles dans SMP v2, consultez [Mise à niveau de SMP v1 vers SMP v2](distributed-model-parallel-v2-reference.md#model-parallel-v2-upgrade-from-v1).
+ Pour la formation PyTorch FSDP, vous devez utiliser le SMP v2.

**Problèmes connus**
+ Les points de contrôle d’activation ne fonctionnent actuellement qu’avec les politiques d’encapsulation suivantes avec FSDP.
  + `auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)`
+ Pour utiliser [Déchargement d’activation](model-parallel-core-features-v2-pytorch-activation-offloading.md), le type des points de contrôle d’activation FSDP doit être [REENTRANT](https://pytorch.org/docs/stable/checkpoint.html).
+ Lors d’une exécution avec le parallélisme de tenseur activé et le degré de parallélisme partitionné des données défini sur `1`, vous devez utiliser `backend = nccl`. L’option de système dorsal `smddp` n’est pas prise en charge dans ce scénario.
+ [Transformer Engine](https://docs.nvidia.com/deeplearning/transformer-engine/index.html) doit être utilisé PyTorch avec la bibliothèque SMP même si le parallélisme des tenseurs n'est pas utilisé.

**Autres modifications**
+ À partir de cette version, la documentation de la bibliothèque de parallélisme des SageMaker modèles est entièrement disponible dans ce guide du *développeur Amazon SageMaker AI*. Au profit de ce guide complet du développeur pour SMP v2 dans le *manuel du développeur Amazon SageMaker AI*, la [référence supplémentaire pour SMP v1.x dans la documentation](https://sagemaker.readthedocs.io/en/stable/api/training/distributed.html#the-sagemaker-distributed-model-parallel-library) du *SDK SageMaker Python* est obsolète. [Si vous avez toujours besoin de la documentation de SMP v1.x, le guide du développeur de SMP v1.x est disponible à l'adresse[(Archivé) Bibliothèque SageMaker de parallélisme des modèles v1.x](model-parallel.md), et la référence de la bibliothèque SMP Python v1.x est disponible dans la documentation du SDK Python v2.199.0. SageMaker ](https://sagemaker.readthedocs.io/en/v2.199.0/api/training/smd_model_parallel_release_notes/smd_model_parallel_change_log.html)

**Dépréciations**
+ Support interrompu pour TensorFlow.
+ Le parallélisme de pipeline n’est pas pris en charge dans SMP v2.
+ La DeepSpeed bibliothèque n'est pas prise en charge en faveur du PyTorch FSDP natif.

**Conteneurs Docker SMP**

L'équipe de la bibliothèque SMP distribue des conteneurs Docker en remplacement des conteneurs du SageMaker PyTorch framework. Si vous utilisez la classe d' PyTorch estimateur dans le SDK SageMaker Python et que vous spécifiez la configuration de distribution pour utiliser SMP v2, SageMaker AI récupère automatiquement les conteneurs SMP Docker. Pour utiliser cette version de SMP v2, mettez à niveau votre SDK SageMaker Python vers la version 2.207.0 ou ultérieure.
+ Conteneur Docker SMP pour PyTorch v2.0.1 avec CUDA v12.1

  ```
  658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121
  ```