翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
重要な注意事項の考慮
このセクションでは、役に立つ重要な注意事項をいくつか説明します。
-
マルチコントローラー Slurm クラスターに移行するには、以下の手順を実行します。
-
「CloudFormation スタックを使用したリソースのプロビジョニング」の手順に従って、必要なすべてのリソースをプロビジョンします。
-
「ライフサイクルスクリプトの準備とアップロード」の手順に従って、更新したライフサイクルスクリプトをアップロードします。
provisioning_parameters.jsonファイルを更新する際は、既存のコントローラーグループを [worker_groups] セクションに移動し、[controller_group] セクションに新しいコントローラーグループ名を追加します。 -
update-cluster API コールを実行して新しいコントローラーグループを作成し、元のコンピューティングインスタンスグループとコントローラーグループを保持します。
-
-
コントローラーノードの数をスケールダウンするには、update-cluster CLI コマンドを使用します。各コントローラーインスタンスグループについて、スケールダウンできるコントローラーノードの最小数は 1 です。つまり、コントローラーノードの数を 0 にスケールダウンすることはできません。
重要
2025 年 1 月 24 日より前に作成されたクラスターの場合、update-cluster CLI コマンドを実行する前に、まず UpdateClusterSoftware API を使用してクラスターソフトウェアを更新する必要があります。
以下は、コントローラーノードの数をスケールダウンする CLI コマンドの例です。
aws sagemaker update-cluster \ --cluster-namemy_cluster\ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount":3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore":1}, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount":2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore":1}]' -
コントローラーノードをバッチ削除するには、batch-delete-cluster-nodes CLI コマンドを使用します。コントローラーインスタンスグループごとに、少なくとも 1 つのコントローラーノードを保持する必要があります。すべてのコントローラーノードをバッチ削除しようとしても、この API オペレーションは機能しません。
重要
2025 年 1 月 24 日より前に作成されたクラスターの場合、batch-delete-cluster-nodes CLI コマンドを実行する前に、まず UpdateClusterSoftware API を使用してクラスターソフトウェアを更新する必要があります。
以下は、コントローラーノードの数をバッチ削除する CLI コマンドの例です。
aws sagemaker batch-delete-cluster-nodes --cluster-namemy_cluster--node-idsinstance_ids_to_delete -
クラスター作成の問題をトラブルシューティングするには、SageMaker AI コンソールのクラスターの詳細ページから失敗メッセージを確認します。CloudWatch ログを使用して、クラスター作成に関する問題をトラブルシューティングすることもできます。CloudWatch コンソールから、[ロググループ] をクリックします。次に、
clustersを検索して、クラスターの作成に関連するロググループのリストを確認します。