Validation de l’environnement d’exécution avant d’exécuter des charges de travail de production sur un cluster HyperPod Slurm - Amazon SageMaker AI

Validation de l’environnement d’exécution avant d’exécuter des charges de travail de production sur un cluster HyperPod Slurm

Pour vérifier l’environnement d’exécution avant d’exécuter des charges de travail de production sur un cluster Slurm sur HyperPod, utilisez le script de validation de l’environnement d’exécution hyperpod-precheck.py. Ce script vérifie si tous les packages nécessaires à l’exécution de Docker sont installés dans le cluster Slurm, si le cluster possède un système de fichiers FSx pour Lustre correctement monté et un répertoire utilisateur partageant ce système de fichiers, et si le démon Slurm s’exécute sur tous les nœuds de calcul.

Pour exécuter le script sur plusieurs nœuds à la fois, utilisez srun comme indiqué dans l’exemple de commande suivant pour exécuter le script sur un cluster Slurm de 8 nœuds.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
Note

Pour en savoir plus sur le script de validation, notamment sur les fonctions de validation d’exécution qu’il fournit et sur les instructions pour résoudre les problèmes qui ne passent pas les validations, consultez Validation de l’environnement d’exécution avant d’exécuter des charges de travail dans le référentiel GitHub Awsome Distributed Training.