HyperPod Slurm クラスターでの本番稼働ワークロード実行前のランタイム検証 - Amazon SageMaker AI

HyperPod Slurm クラスターでの本番稼働ワークロード実行前のランタイム検証

HyperPod 上の Slurm クラスターで本番稼働用ワークロードを実行する前にランタイムを確認するには、ランタイム検証スクリプト hyperpod-precheck.py を使用します。このスクリプトは、Slurm クラスターに Docker を実行するためのすべてのパッケージがインストールされているかどうかを確認します。クラスターに FSx for Lustre ファイルシステムが適切にマウントされているか、ファイルシステムを共有するユーザーディレクトリがあるかどうか、すべてのコンピューティングノードで Slurm デーモンが実行されているかどうかを確認します。

スクリプトを複数のノードで一度に実行するには、次の 8 つのノードの Slurm クラスターでスクリプトを実行するコマンド例に示すように srun を使用します。

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
注記

スクリプトが提供するランタイム検証関数や、検証に合格しない問題を解決するためのガイドラインなど、検証スクリプトの詳細については、Awsome Distributed Training GitHub リポジトリの「Runtime validation before running workloads」を参照してください。