

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 重要な注意事項の考慮
<a name="sagemaker-hyperpod-multihead-slurm-notes"></a>

このセクションでは、役に立つ重要な注意事項をいくつか説明します。

1. マルチコントローラー Slurm クラスターに移行するには、以下の手順を実行します。

   1. 「[CloudFormation スタックを使用したリソースのプロビジョニング](sagemaker-hyperpod-multihead-slurm-cfn.md)」の手順に従って、必要なすべてのリソースをプロビジョンします。

   1. 「[ライフサイクルスクリプトの準備とアップロード](sagemaker-hyperpod-multihead-slurm-scripts.md)」の手順に従って、更新したライフサイクルスクリプトをアップロードします。`provisioning_parameters.json` ファイルを更新する際は、既存のコントローラーグループを [`worker_groups`] セクションに移動し、[`controller_group`] セクションに新しいコントローラーグループ名を追加します。

   1. [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) API コールを実行して新しいコントローラーグループを作成し、元のコンピューティングインスタンスグループとコントローラーグループを保持します。

1. コントローラーノードの数をスケールダウンするには、[update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) CLI コマンドを使用します。各コントローラーインスタンスグループについて、スケールダウンできるコントローラーノードの最小数は 1 です。つまり、コントローラーノードの数を 0 にスケールダウンすることはできません。
**重要**  
2025 年 1 月 24 日より前に作成されたクラスターの場合、[update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) CLI コマンドを実行する前に、まず [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API を使用してクラスターソフトウェアを更新する必要があります。

   以下は、コントローラーノードの数をスケールダウンする CLI コマンドの例です。

   ```
   aws sagemaker update-cluster \
       --cluster-name my_cluster \
       --instance-groups '[{                  
       "InstanceGroupName": "controller_ig_name",
       "InstanceType": "ml.t3.medium",
       "InstanceCount": 3,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "slurm_execution_role_arn",
       "ThreadsPerCore": 1
   },
   {
       "InstanceGroupName": "compute-ig_name",       
       "InstanceType": "ml.c5.xlarge",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "compute_node_role_arn",
       "ThreadsPerCore": 1
   }]'
   ```

1. コントローラーノードをバッチ削除するには、[batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html) CLI コマンドを使用します。コントローラーインスタンスグループごとに、少なくとも 1 つのコントローラーノードを保持する必要があります。すべてのコントローラーノードをバッチ削除しようとしても、この API オペレーションは機能しません。
**重要**  
2025 年 1 月 24 日より前に作成されたクラスターの場合、[batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html) CLI コマンドを実行する前に、まず [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API を使用してクラスターソフトウェアを更新する必要があります。

   以下は、コントローラーノードの数をバッチ削除する CLI コマンドの例です。

   ```
   aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
   ```

1. クラスター作成の問題をトラブルシューティングするには、SageMaker AI コンソールのクラスターの詳細ページから失敗メッセージを確認します。CloudWatch ログを使用して、クラスター作成に関する問題をトラブルシューティングすることもできます。CloudWatch コンソールから、**[ロググループ]** をクリックします。次に、`clusters` を検索して、クラスターの作成に関連するロググループのリストを確認します。  
![\[CloudWatch コンソールの Amazon SageMaker HyperPod クラスターロググループを示す画像\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/hyperpod/hyperpod-lifecycle-multihead-logs.png)