HyperPod での Slurm クラスター作成前の JSON 設定ファイルの検証 - Amazon SageMaker AI

HyperPod での Slurm クラスター作成前の JSON 設定ファイルの検証

クラスター作成リクエストを送信する前に JSON 設定ファイルを検証するには、設定検証スクリプト validate-config.py を使用します。このスクリプトは、HyperPod クラスター設定 JSON ファイルと Slurm 設定 JSON ファイルを解析して比較し、2 つのファイル間、および Amazon EC2、Amazon VPC、Amazon FSx リソース間でリソースの設定ミスがあるかどうかを特定します。例えば、「HyperPod が提供する基本ライフサイクルスクリプト」セクションから create_cluster.jsonおよび provisioning_parameters.json ファイルを検証するには、次のように検証スクリプトを実行します。

python3 validate-config.py --cluster-config create_cluster.json --provisioning-parameters provisioning_parameters.json

以下に、検証に成功した出力の例を示します。

✔️ Validated instance group name worker-group-1 is correct ... ✔️ Validated subnet subnet-012345abcdef67890 ... ✔️ Validated security group sg-012345abcdef67890 ingress rules ... ✔️ Validated security group sg-012345abcdef67890 egress rules ... ✔️ Validated FSx Lustre DNS name fs-012345abcdef67890.fsx.us-east-1.amazonaws.com ✔️ Validated FSx Lustre mount name abcdefgh ✅ Cluster Validation succeeded