Configuration de l'environnement HyperPod GPU Slurm Lancement de la tâche d’entraînement

HyperPod PEFT-Lora Tutoriel sur le cluster Slurm (GPU)

Le didacticiel suivant permet de configurer l’environnement Slurm et de démarrer une tâche de peaufinage efficace des paramètres (PEFT) sur un modèle Llama de 8 milliards de paramètres.

Conditions préalables

Avant de commencer à configurer votre environnement, assurez-vous d’avoir :

Configurer le cluster HyperPod GPU Slurm
- Votre cluster HyperPod Slurm doit avoir Nvidia Enroot et Pyxis activés (ils sont activés par défaut).
Un emplacement de stockage partagé. Il peut s’agir d’un système de fichiers Amazon FSx ou d’un système NFS accessible depuis les nœuds du cluster.
Des données dans l’un des formats suivants :
- JSON
- JSONGZ (JSON compressé)
- ARROW
(Facultatif) Si vous avez besoin des haltères préentraînées HuggingFace ou si vous entraînez un modèle Llama 3.2, vous devez obtenir le HuggingFace jeton avant de commencer l'entraînement. Pour plus d’informations sur l’obtention du jeton, consultez User access tokens.

Configuration de l'environnement HyperPod GPU Slurm

Pour lancer une tâche d’entraînement sur un cluster Slurm, procédez comme suit :

Accédez par SSH au nœud principal de votre cluster Slurm.
Une fois connecté, configurez l’environnement virtuel. Assurez-vous d’utiliser Python 3.9 ou version supérieure.
```
#set up a virtual environment
python3 -m venv ${PWD}/venv
source venv/bin/activate
```
Clonez les référentiels de SageMaker HyperPod recettes et d' SageMaker HyperPod adaptateurs sur un emplacement de stockage partagé. Cet emplacement de stockage partagé peut être un système de fichiers Amazon FSx ou un système NFS accessible depuis les nœuds du cluster.
```
git clone https://github.com/aws/sagemaker-hyperpod-training-adapter-for-nemo.git
git clone --recursive https://github.com/aws/sagemaker-hyperpod-recipes.git
cd sagemaker-hyperpod-recipes
pip3 install -r requirements.txt
```

Créez un fichier squash à l’aide d’Enroot. Pour trouver la dernière version du conteneur SMP, consultez Notes de mise à jour pour la bibliothèque de parallélisme des SageMaker modèles. Pour plus d'informations sur l'utilisation du fichier Enroot, voir Création d'une AWS image optimisée Nemo-Launcher .


REGION="<region>"
IMAGE="658645717510.dkr.ecr.${REGION}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121"
aws ecr get-login-password --region ${REGION} | docker login --username AWS --password-stdin 658645717510.dkr.ecr.${REGION}.amazonaws.com
enroot import -o $PWD/smdistributed-modelparallel.sqsh dockerd://${IMAGE}
mv $PWD/smdistributed-modelparallel.sqsh "/fsx/<any-path-in-the-shared-filesystem>"

Pour utiliser le fichier squash Enroot pour commencer l’entraînement, utilisez l’exemple suivant pour modifier le fichier recipes_collection/config.yaml.
```
container: /fsx/path/to/your/smdistributed-modelparallel.sqsh
```

Lancement de la tâche d’entraînement

Pour lancer une tâche PEFT pour le modèle Llama de 8 milliards de paramètres avec une longueur de séquence de 8 192 sur un seul nœud de calcul Slurm, définissez le script de lancement, launcher_scripts/llama/run_hf_llama3_8b_seq8k_gpu_lora.sh, comme suit :

IMAGE : le conteneur de la section de configuration de l’environnement.
HF_MODEL_NAME_OR_PATH : définissez le nom ou le chemin des poids pré-entraînés dans le paramètre hf_model_name_or_path de la recette.
(Facultatif) Vous pouvez fournir le HuggingFace jeton si vous avez besoin de poids préentraînés HuggingFace en définissant la paire clé-valeur suivante :
```
recipes.model.hf_access_token=${HF_ACCESS_TOKEN}
```


#!/bin/bash
IMAGE="${YOUR_IMAGE}"
SAGEMAKER_TRAINING_LAUNCHER_DIR="${SAGEMAKER_TRAINING_LAUNCHER_DIR:-${PWD}}"

TRAIN_DIR="${YOUR_TRAIN_DIR}" # Location of training dataset
VAL_DIR="${YOUR_VAL_DIR}" # Location of validation dataset

# experiment output directory
EXP_DIR="${YOUR_EXP_DIR}"
HF_ACCESS_TOKEN="${YOUR_HF_TOKEN}"
HF_MODEL_NAME_OR_PATH="${YOUR_HF_MODEL_NAME_OR_PATH}"

# Add hf_model_name_or_path and turn off synthetic_data
HYDRA_FULL_ERROR=1 python3 ${SAGEMAKER_TRAINING_LAUNCHER_DIR}/main.py \
    recipes=fine-tuning/llama/hf_llama3_8b_seq8k_gpu_lora \
    base_results_dir=${SAGEMAKER_TRAINING_LAUNCHER_DIR}/results \
    recipes.run.name="hf_llama3_lora" \
    recipes.exp_manager.exp_dir="$EXP_DIR" \
    recipes.model.data.train_dir="$TRAIN_DIR" \
    recipes.model.data.val_dir="$VAL_DIR" \
    recipes.model.hf_model_name_or_path="$HF_MODEL_NAME_OR_PATH" \
    container="${IMAGE}" \
    +cluster.container_mounts.0="/fsx:/fsx" \
    recipes.model.hf_access_token="${HF_ACCESS_TOKEN}"

Après avoir configuré tous les paramètres requis dans le script précédent, vous pouvez lancer la tâche d’entraînement en l’exécutant.


bash launcher_scripts/llama/run_hf_llama3_8b_seq8k_gpu_lora.sh

Pour plus d’informations sur la configuration du cluster Slurm, consultez Exécution d'une tâche de formation sur HyperPod Slurm.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Entraînement DPO avec les clusters Slurm

Pré-entraînement de GPU à l’aide de clusters Kubernetes