翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod クイックスタート
このクイックスタートでは、Slurm オーケストレーションと Amazon EKS (EKS) オーケストレーションを使用して最初の HyperPod クラスターを作成する方法について説明します。SageMaker HyperPod の使用を開始するために必要なインフラストラクチャに最適なオーケストレーションを選択します。
このトピックの内容
Slurm オーケストレーションされた SageMaker HyperPod クラスターを作成する
Slurm オーケストレーションを使用して最初の SageMaker HyperPod クラスターを作成するには、次の手順に従います。
Amazon SageMaker AI コンソール (https://console.aws.amazon.com/sagemaker/
) を開きます。 -
左側のナビゲーションペインで、[HyperPod クラスター] を選択し、[クラスターの管理] をクリックします。
-
[SageMaker HyperPod クラスター] ページで、[HyperPod クラスターを作成] をクリックします。
-
[HyperPod クラスターを作成] ドロップダウンメニューから、[Slurm によるオーケストレーション] を選択します。
-
クラスター作成ページで、[高速セットアップ] をクリックします。このオプションを使用すると、すぐにデフォルト設定で使用開始できます。SageMaker AI は、クラスターの作成中に VPC、サブネット、セキュリティグループ、Amazon S3 バケット、IAM ロール、FSx for Lustre などの新しいリソースを作成します。
-
[全般設定] で、新しいクラスターの名前を指定します。クラスター名は、クラスターの作成後には変更できません。
-
[インスタンスグループ] で、[グループを追加] をクリックします。インスタンスグループごとに異なる方法で設定でき、さまざまなインスタンスタイプを持つ複数のインスタンスグループで構成される異種クラスターを作成できます。クラスターをデプロイするには、少なくとも 1 つのインスタンスグループを追加する必要があります。一度に追加できるインスタンスグループは 1 つです。複数のインスタンスグループを作成するには、インスタンスグループごとにこのプロセスを繰り返します。
インスタンスグループを追加するには、次の手順を実行します。
-
[インスタンスグループのタイプ] では、インスタンスグループのタイプを選択します。このクイックスタートでは、[
my-controller-group] で [コントローラ (head)]、[my-login-group] で [ログイン]、[worker-group-1] で [コンピューティング (ワーカー)] を選択します。 -
[名前] には、インスタンスグループ名を入力します。このクイックスタートでは、
my-controller-group、my-login-group、worker-group-1という名前の 3 つのインスタンスグループを作成します。 -
[インスタンスキャパシティ] については、オンデマンドキャパシティまたはトレーニングプランを選択してコンピューティングリソースを予約します。
-
[インスタンスタイプ] では、インスタンスグループのインスタンスを選択します。このクイックスタートでは、[
my-controller-group] に [ml.c5.xlarge]、[my-login-group] に [ml.m5.4xlarge]、[worker-group-1] に [ml.trn1.32xlarge] を選択します。アカウントで十分なクォータを持つインスタンスタイプを選択するか、「SageMaker HyperPod クォータ」に従って追加のクォータをリクエストします。
-
[インスタンスの数量] で、クラスターの使用についてインスタンスクォータを超えない整数を指定します。このチュートリアルでは、3 つのグループすべてに「1」と入力します。
-
[ターゲットアベイラビリティーゾーン] では、インスタンスをプロビジョンするアベイラビリティーゾーンを選択します。アベイラビリティーゾーンは、高速コンピューティングキャパシティの場所に対応している必要があります。
-
[インスタンスあたりの追加のストレージボリューム (GB)] (オプション) で、1~16384 の整数を指定し、追加の Elastic Block Store (EBS) ボリュームのサイズをギガバイト (GB) 単位で設定します。EBS ボリュームは、インスタンスグループの各インスタンスにアタッチされます。追加の EBS ボリュームのデフォルトのマウントパスは
/opt/sagemakerです。クラスターが正常に作成されたら、クラスターインスタンス (ノード) に SSH 接続し、df -hコマンドを実行して EBS ボリュームが正しくマウントされているかどうかを確認できます。追加の EBS ボリュームをアタッチすると、「Amazon Elastic Block Store ユーザーガイド」の「Amazon EBS ボリューム」セクションで説明されているように、インスタンスから独立した永続性を持つ安定したストレージが実現します。 -
[インスタンスグループを追加] をクリックします。
-
-
[クイック設定デフォルト] で、デフォルト設定を確認します。このセクションでは、クラスター作成プロセス中に作成されるすべての新しい AWS リソースを含む、クラスター作成のすべてのデフォルト設定を一覧表示します。
-
[Submit] を選択してください。
詳細については、「SageMaker AI コンソールを使用した SageMaker HyperPod の開始方法」を参照してください。
EKS でオーケストレーションした SageMaker HyperPod クラスターを作成する
Amazon EKS オーケストレーションを使用して最初の SageMaker HyperPod クラスターを作成するには、次の手順に従います。
Amazon SageMaker AI コンソール (https://console.aws.amazon.com/sagemaker/
) を開きます。 -
左側のナビゲーションペインで、[HyperPod クラスター] を選択し、[クラスターの管理] をクリックします。
-
[SageMaker HyperPod クラスター] ページで、[HyperPod クラスターを作成] をクリックします。
-
[HyperPod クラスターを作成] ドロップダウンで、[Amazon EKS によるオーケストレーション] を選択します。
-
クラスター作成ページで、[クイック構成] をクリックします。このオプションを使用すると、すぐにデフォルト設定で使用開始できます。SageMaker AI は、クラスターの作成中に VPC、サブネット、セキュリティグループ、Amazon S3 バケット、IAM ロール、FSx for Lustre などの新しいリソースを作成します。
-
[全般設定] で、新しいクラスターの名前を指定します。クラスター名は、クラスターの作成後には変更できません。
-
[インスタンスグループ] で、[グループを追加] をクリックします。インスタンスグループごとに異なる方法で設定でき、さまざまなインスタンスタイプを持つ複数のインスタンスグループで構成される異種クラスターを作成できます。クラスターをデプロイするには、少なくとも 1 つのインスタンスグループを追加する必要があります。一度に追加できるインスタンスグループは 1 つです。複数のインスタンスグループを作成するには、インスタンスグループごとにこのプロセスを繰り返します。
インスタンスグループを追加するには、次の手順を実行します。
-
[インスタンスグループのタイプ] で、[標準] または [制限付きインスタンスグループ (RIG)] を選択します。通常、追加のセキュリティ制限なしで汎用コンピューティング環境を提供する [標準] を選択します。[制限付きインスタンスグループ (RIG)] は、Amazon Nova などの基盤モデルのカスタマイズに特化した環境です。Amazon Nova モデルのカスタマイズ用に RIG を設定する方法の詳細については、「Amazon SageMaker HyperPod での Amazon Nova のカスタマイズ」を参照してください。
-
[名前] には、インスタンスグループ名を入力します。
-
[インスタンスキャパシティ] については、オンデマンドキャパシティまたはトレーニングプランを選択してコンピューティングリソースを予約します。
-
[インスタンスタイプ] では、インスタンスグループのインスタンスを選択します。アカウントで十分なクォータを持つインスタンスタイプを選択するか、「SageMaker HyperPod クォータ」に従って追加のクォータをリクエストしてください。
-
[インスタンスの数量] で、クラスターの使用についてインスタンスクォータを超えない整数を指定します。このチュートリアルでは、3 つのグループすべてに「1」と入力します。
-
[ターゲットアベイラビリティーゾーン] では、インスタンスをプロビジョンするアベイラビリティーゾーンを選択します。アベイラビリティーゾーンは、高速コンピューティングキャパシティの場所に対応している必要があります。
-
[インスタンスあたりの追加のストレージボリューム (GB)] (オプション) で、1~16384 の整数を指定し、追加の Elastic Block Store (EBS) ボリュームのサイズをギガバイト (GB) 単位で設定します。EBS ボリュームは、インスタンスグループの各インスタンスにアタッチされます。追加の EBS ボリュームのデフォルトのマウントパスは
/opt/sagemakerです。クラスターが正常に作成されたら、クラスターインスタンス (ノード) に SSH 接続し、df -hコマンドを実行して EBS ボリュームが正しくマウントされているかどうかを確認できます。追加の EBS ボリュームをアタッチすると、「Amazon Elastic Block Store ユーザーガイド」の「Amazon EBS ボリューム」セクションで説明されているように、インスタンスから独立した永続性を持つ安定したストレージが実現します。 -
[インスタンスのディープヘルスチェック] で、オプションを選択します。ディープヘルスチェックは、作成中およびソフトウェア更新後にインスタンスのヘルスをモニタリングします。これを有効にすると再起動または置換が原因で障害が発生したインスタンスが自動的に復旧します。
-
[インスタンスグループを追加] をクリックします。
-
-
[クイック設定デフォルト] で、デフォルト設定を確認します。このセクションでは、クラスター作成プロセス中に作成されるすべての新しい AWS リソースを含む、クラスター作成のすべてのデフォルト設定を一覧表示します。
-
[Submit] を選択してください。
詳細については、「Amazon EKS オーケストレーションを使用した SageMaker HyperPod クラスターの作成」を参照してください。
ワークロードを送信する
サンプルワークロードを送信するには、以下のワークショップチュートリアルに従ってください。