

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# HyperPod Slurm クラスターでの本番稼働ワークロード実行前のランタイム検証
<a name="sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-validate-runtime"></a>

HyperPod 上の Slurm クラスターで本番稼働用ワークロードを実行する前にランタイムを確認するには、ランタイム検証スクリプト [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/hyperpod-precheck.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/hyperpod-precheck.py) を使用します。このスクリプトは、Slurm クラスターに Docker を実行するためのすべてのパッケージがインストールされているかどうか、適切にマウントされた FSx for Lustre ファイルシステムと、ファイルシステムを共有するユーザーディレクトリがクラスターにあるかどうか、および Slurm デーモンがすべてのコンピューティングノードで実行されているかどうかを確認します。

スクリプトを複数のノードで一度に実行するには、次の 8 つのノードの Slurm クラスターでスクリプトを実行するコマンド例に示すように `srun` を使用します。

```
# The following command runs on 8 nodes
srun -N {{8}} python3 hyperpod-precheck.py
```

**注記**  
スクリプトが提供するランタイム検証関数や、検証に合格しない問題を解決するためのガイドラインなど、検証スクリプトの詳細については、*Awsome Distributed Training GitHub リポジトリ*の「[Runtime validation before running workloads](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod#35-runtime-validation-before-running-workloads)」を参照してください。