重要な注意事項の考慮 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

重要な注意事項の考慮

このセクションでは、役に立つ重要な注意事項をいくつか説明します。

  1. マルチコントローラー Slurm クラスターに移行するには、以下の手順を実行します。

    1. CloudFormation スタックを使用したリソースのプロビジョニング」の手順に従って、必要なすべてのリソースをプロビジョンします。

    2. ライフサイクルスクリプトの準備とアップロード」の手順に従って、更新したライフサイクルスクリプトをアップロードします。provisioning_parameters.json ファイルを更新する際は、既存のコントローラーグループを [worker_groups] セクションに移動し、[controller_group] セクションに新しいコントローラーグループ名を追加します。

    3. update-cluster API コールを実行して新しいコントローラーグループを作成し、元のコンピューティングインスタンスグループとコントローラーグループを保持します。

  2. コントローラーノードの数をスケールダウンするには、update-cluster CLI コマンドを使用します。各コントローラーインスタンスグループについて、スケールダウンできるコントローラーノードの最小数は 1 です。つまり、コントローラーノードの数を 0 にスケールダウンすることはできません。

    重要

    2025 年 1 月 24 日より前に作成されたクラスターの場合、update-cluster CLI コマンドを実行する前に、まず UpdateClusterSoftware API を使用してクラスターソフトウェアを更新する必要があります。

    以下は、コントローラーノードの数をスケールダウンする CLI コマンドの例です。

    aws sagemaker update-cluster \ --cluster-name my_cluster \ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount": 3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore": 1 }, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore": 1 }]'
  3. コントローラーノードをバッチ削除するには、batch-delete-cluster-nodes CLI コマンドを使用します。コントローラーインスタンスグループごとに、少なくとも 1 つのコントローラーノードを保持する必要があります。すべてのコントローラーノードをバッチ削除しようとしても、この API オペレーションは機能しません。

    重要

    2025 年 1 月 24 日より前に作成されたクラスターの場合、batch-delete-cluster-nodes CLI コマンドを実行する前に、まず UpdateClusterSoftware API を使用してクラスターソフトウェアを更新する必要があります。

    以下は、コントローラーノードの数をバッチ削除する CLI コマンドの例です。

    aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
  4. クラスター作成の問題をトラブルシューティングするには、SageMaker AI コンソールのクラスターの詳細ページから失敗メッセージを確認します。CloudWatch ログを使用して、クラスター作成に関する問題をトラブルシューティングすることもできます。CloudWatch コンソールから、[ロググループ] をクリックします。次に、clusters を検索して、クラスターの作成に関連するロググループのリストを確認します。

    CloudWatch コンソールの Amazon SageMaker HyperPod クラスターロググループを示す画像