HyperPod Slurm 클러스터에서 프로덕션 워크로드를 실행하기 전에 런타임 검증
HyperPod의 Slurm 클러스터에서 프로덕션 워크로드를 실행하기 전에 런타임을 확인하려면 런타임 검증 스크립트 hyperpod-precheck.py
한 번에 여러 노드에서 스크립트를 실행하려면 다음 예제 명령과 같이 srun를 사용하여 8개의 노드로 구성된 Slurm 클러스터에서 스크립트를 실행합니다.
# The following command runs on 8 nodes srun -N8python3 hyperpod-precheck.py
참고
스크립트가 제공하는 런타임 검증 함수 및 검증을 통과하지 못하는 문제를 해결하기 위한 지침과 같은 검증 스크립트에 대한 자세한 내용은 Awsome Distributed Training GitHub 리포지토리에서 워크로드를 실행하기 전에 런타임 검증