翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
HyperPod Slurm クラスターの事前トレーニングのチュートリアル (GPU)
次のチュートリアルでは、Slurm 環境を設定し、Llama 80 億パラメータモデルでトレーニングジョブを開始します。
前提条件
環境を設定してレシピを実行する前に、以下を確認してください。
-
HyperPod GPU Slurm クラスターをセットアップします。
-
HyperPod Slurm クラスターでは、Nvidia Enroot と Pyxis が有効になっている必要があります (これらはデフォルトで有効になっています)。
-
-
共有ストレージの場所。Amazon FSx ファイルシステムでも、クラスターノードからアクセスできる NFS システムでもかまいません。
-
以下の形式のいずれか。
-
JSON
-
JSONGZ (圧縮 JSON)
-
ARROW
-
-
(オプション) HuggingFace のモデル重みを事前トレーニングまたはファインチューニングに使用する場合は、HuggingFace トークンを取得する必要があります。アクセストークンの詳細については、「ユーザーアクセストークン
」を参照してください。
HyperPod GPU Slurm 環境のセットアップ
HyperPod GPU Slurm クラスターでトレーニングジョブを開始するには、次の手順を実行します。
-
クラスターのヘッドノードに SSH 接続します。
-
ログインしたら、仮想環境を設定します。Python 3.9 以降を使用していることを確認します。
#set up a virtual environment python3 -m venv ${PWD}/venv source venv/bin/activate -
共有ストレージの場所に、SageMaker HyperPod レシピと SageMaker HyperPod アダプタリポジトリのクローンを作成します。
git clone https://github.com/aws/sagemaker-hyperpod-training-adapter-for-nemo.git git clone --recursive https://github.com/aws/sagemaker-hyperpod-recipes.git cd sagemaker-hyperpod-recipes pip3 install -r requirements.txt -
Enroot を使用してスカッシュファイルを作成します。SMP コンテナの最新リリースを確認するには、「SageMaker モデル並列処理ライブラリのリリースノート」を参照してください。Enroot ファイルの使用方法の詳細については、「ビルドAWS最適化 Nemo-Launcher イメージ
」を参照してください。 REGION="<region>" IMAGE="658645717510.dkr.ecr.${REGION}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121" aws ecr get-login-password --region ${REGION} | docker login --username AWS --password-stdin 658645717510.dkr.ecr.${REGION}.amazonaws.com enroot import -o $PWD/smdistributed-modelparallel.sqsh dockerd://${IMAGE} mv $PWD/smdistributed-modelparallel.sqsh "/fsx/<any-path-in-the-shared-filesystem>" -
Enroot スカッシュファイルを使用してトレーニングを開始するには、次の例を使用して、
recipes_collection/config.yamlファイルを変更します。container: /fsx/path/to/your/smdistributed-modelparallel.sqsh
トレーニングジョブを起動する
依存関係をインストールしたら、sagemaker-hyperpod-recipes/launcher_scripts ディレクトリからトレーニングジョブを開始します。依存関係を取得するには、SageMaker HyperPod レシピリポジトリ
まず、Github からトレーニングレシピを選択します。モデル名はレシピの一部として指定されます。次の例では、launcher_scripts/llama/run_hf_llama3_8b_seq16k_gpu_p5x16_pretrain.sh スクリプトを使用して、シーケンス長 8192 の事前トレーニングレシピ llama/hf_llama3_8b_seq16k_gpu_p5x16_pretrain を持つ Llama 8b を起動します。
-
IMAGE: 環境設定セクションのコンテナ。 -
(オプション) 次の key-value ペアを設定することで、HuggingFace から事前トレーニング済みの重みが必要な場合は、HuggingFace トークンを指定できます。
recipes.model.hf_access_token=<your_hf_token>
#!/bin/bash IMAGE="${YOUR_IMAGE}" SAGEMAKER_TRAINING_LAUNCHER_DIR="${SAGEMAKER_TRAINING_LAUNCHER_DIR:-${PWD}}" TRAIN_DIR="${YOUR_TRAIN_DIR}" # Location of training dataset VAL_DIR="${YOUR_VAL_DIR}" # Location of validation dataset # experiment ouput directory EXP_DIR="${YOUR_EXP_DIR}" HYDRA_FULL_ERROR=1 python3 "${SAGEMAKER_TRAINING_LAUNCHER_DIR}/main.py" \ recipes=training/llama/hf_llama3_8b_seq16k_gpu_p5x16_pretrain \ base_results_dir="${SAGEMAKER_TRAINING_LAUNCHER_DIR}/results" \ recipes.run.name="hf_llama3_8b" \ recipes.exp_manager.exp_dir="$EXP_DIR" \ recipes.model.data.train_dir="$TRAIN_DIR" \ recipes.model.data.val_dir="$VAL_DIR" \ container="${IMAGE}" \ +cluster.container_mounts.0="/fsx:/fsx"
ランチャースクリプトで必要なパラメータをすべて設定したら、次のコマンドを使用してスクリプトを実行できます。
bash launcher_scripts/llama/run_hf_llama3_8b_seq16k_gpu_p5x16_pretrain.sh
Slurm クラスターの設定に関する詳細は、「HyperPod Slurm でのトレーニングジョブの実行」を参照してください。