Siapkan lingkungan HyperPod GPU Slurm Luncurkan pekerjaan pelatihan

HyperPod Tutorial DPO klaster slurm (GPU)

Tutorial berikut menyiapkan lingkungan Slurm dan memulai pekerjaan optimasi preferensi langsung (DPO) pada model parameter Llama 8 miliar.

Prasyarat

Sebelum Anda mulai mengatur lingkungan Anda, pastikan Anda memiliki:

Siapkan cluster HyperPod GPU Slurm
- Cluster HyperPod Slurm Anda harus mengaktifkan Nvidia Enroot dan Pyxis (ini diaktifkan secara default).
Lokasi penyimpanan bersama. Ini bisa berupa sistem file Amazon FSx atau sistem NFS yang dapat diakses dari node cluster.
Dataset preferensi biner tokenized dalam salah satu format berikut:
- JSON
- JSONGZ (JSON Terkompresi)
- PANAH
(Opsional) Jika Anda memerlukan bobot yang telah dilatih sebelumnya dari HuggingFace atau jika Anda melatih model Llama 3.2, Anda harus mendapatkan HuggingFace token sebelum memulai pelatihan. Untuk informasi selengkapnya tentang mendapatkan token, lihat Token akses pengguna.

Siapkan lingkungan HyperPod GPU Slurm

Untuk memulai pekerjaan pelatihan di cluster Slurm, lakukan hal berikut:

SSH ke node kepala cluster Slurm Anda.
Setelah Anda masuk, atur lingkungan virtual. Pastikan Anda menggunakan Python 3.9 atau lebih tinggi.
```
#set up a virtual environment
python3 -m venv ${PWD}/venv
source venv/bin/activate
```
Kloning SageMaker HyperPod resep dan repositori SageMaker HyperPod adaptor ke lokasi penyimpanan bersama. Lokasi penyimpanan bersama dapat berupa sistem file Amazon FSx atau sistem NFS yang dapat diakses dari node cluster.
```
git clone https://github.com/aws/sagemaker-hyperpod-training-adapter-for-nemo.git
git clone --recursive https://github.com/aws/sagemaker-hyperpod-recipes.git
cd sagemaker-hyperpod-recipes
pip3 install -r requirements.txt
```

Buat file squash menggunakan Enroot. Untuk menemukan rilis terbaru dari wadah SMP, lihatCatatan rilis untuk pustaka paralelisme SageMaker model. Untuk informasi selengkapnya tentang penggunaan file Enroot, lihat Build AWS-optimized image Nemo-Launcher .


REGION="<region>"
IMAGE="658645717510.dkr.ecr.${REGION}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121"
aws ecr get-login-password --region ${REGION} | docker login --username AWS --password-stdin 658645717510.dkr.ecr.${REGION}.amazonaws.com
enroot import -o $PWD/smdistributed-modelparallel.sqsh dockerd://${IMAGE}
mv $PWD/smdistributed-modelparallel.sqsh "/fsx/<any-path-in-the-shared-filesystem>"

Untuk menggunakan file squash Enroot untuk memulai pelatihan, gunakan contoh berikut untuk memodifikasi file. recipes_collection/config.yaml
```
container: /fsx/path/to/your/smdistributed-modelparallel.sqsh
```

Luncurkan pekerjaan pelatihan

Untuk meluncurkan pekerjaan DPO untuk model parameter Llama 8 miliar dengan panjang urutan 8192 pada satu simpul komputasi Slurm, atur skrip peluncuran, ke yang berikut: launcher_scripts/llama/run_hf_llama3_8b_seq8k_gpu_dpo.sh

IMAGE: Wadah dari bagian pengaturan lingkungan.
HF_MODEL_NAME_OR_PATH: Tentukan nama atau jalur bobot yang telah dilatih sebelumnya dalam parameter hf_model_name_or_path resep.
(Opsional) Anda dapat memberikan HuggingFace token jika Anda membutuhkan bobot yang telah dilatih sebelumnya HuggingFace dengan menetapkan pasangan nilai kunci berikut:
```
recipes.model.hf_access_token=${HF_ACCESS_TOKEN}
```

catatan

Model referensi yang digunakan untuk DPO dalam pengaturan ini secara otomatis diturunkan dari model dasar yang dilatih (tidak ada model referensi terpisah yang didefinisikan secara eksplisit). Hyperparameter spesifik DPO telah dikonfigurasi sebelumnya dengan nilai default berikut:

beta: 0.1 (mengontrol kekuatan regularisasi divergensi KL)
label_smoothing: 0.0 (tidak ada perataan yang diterapkan pada label preferensi)


recipes.dpo.beta=${BETA}
recipes.dpo.label_smoothing=${LABEL_SMOOTHING}


#!/bin/bash
IMAGE="${YOUR_IMAGE}"
SAGEMAKER_TRAINING_LAUNCHER_DIR="${SAGEMAKER_TRAINING_LAUNCHER_DIR:-${PWD}}"

TRAIN_DIR="${YOUR_TRAIN_DIR}" # Location of training dataset
VAL_DIR="${YOUR_VAL_DIR}" # Location of validation dataset
# experiment output directory
EXP_DIR="${YOUR_EXP_DIR}"
HF_ACCESS_TOKEN="${YOUR_HF_TOKEN}"
HF_MODEL_NAME_OR_PATH="${HF_MODEL_NAME_OR_PATH}"
BETA="${BETA}"
LABEL_SMOOTHING="${LABEL_SMOOTHING}"

# Add hf_model_name_or_path and turn off synthetic_data
HYDRA_FULL_ERROR=1 python3 ${SAGEMAKER_TRAINING_LAUNCHER_DIR}/main.py \
recipes=fine-tuning/llama/hf_llama3_8b_seq8k_gpu_dpo \
base_results_dir=${SAGEMAKER_TRAINING_LAUNCHER_DIR}/results \
recipes.run.name="hf_llama3_dpo" \
recipes.exp_manager.exp_dir="$EXP_DIR" \
recipes.model.data.train_dir="$TRAIN_DIR" \
recipes.model.data.val_dir="$VAL_DIR" \
recipes.model.hf_model_name_or_path="$HF_MODEL_NAME_OR_PATH" \
container="${IMAGE}" \
+cluster.container_mounts.0="/fsx:/fsx" \
recipes.model.hf_access_token="${HF_ACCESS_TOKEN}" \
recipes.dpo.enabled=true \
recipes.dpo.beta="${BETA}" \
recipes.dpo.label_smoothing="${LABEL_SMOOTHING}$" \

Setelah Anda mengonfigurasi semua parameter yang diperlukan dalam skrip sebelumnya, Anda dapat memulai pekerjaan pelatihan dengan menjalankannya.


bash launcher_scripts/llama/run_hf_llama3_8b_seq8k_gpu_dpo.sh

Untuk informasi selengkapnya tentang konfigurasi klaster Slurm, lihat. Menjalankan pekerjaan pelatihan di HyperPod Slurm

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pra-pelatihan Trainium dengan cluster Slurm

PEFT-Lora pelatihan dengan cluster Slurm