制限されたインスタンスグループ (RIG) を使用した HyperPod EKS クラスターの作成 - Amazon SageMaker AI

制限されたインスタンスグループ (RIG) を使用した HyperPod EKS クラスターの作成

このトピックでは、制限されたインスタンスグループ (RIG) を使用して Amazon SageMaker HyperPod EKS クラスターを作成する手順について説明します。SageMaker HyperPod EKS クラスターの RIG 設定は、Amazon Nova モデルをトレーニングするための特殊な環境を提供します。RIG には以下の制限があります。

  • RIG ワークロードはインターネットフリー VPC で実行され、すべてのイングレスとエグレスは厳密に規制されています。

  • RIG には、Nova モデルトレーニング用の安全な環境を確保するために、kubectl exec や logs などの Kubernetes 関数のオブザーバビリティに関する制限があります。

  • RIG では Nova カスタマイズイメージのみが許可されており、他のイメージで実行されているジョブは拒否されます。

HyperPod EKS クラスターでインスタンスグループを設定するときに RIG を作成できます。これらのリソースのサイズとスケーリングは制御できますが、ワーカーノードに直接アクセスすることはできません。このアーキテクチャにより、Nova コンポーネント (モデルの重み、チェックポイント、トレーニングデータ、コード) には、規制されたチャネルとサービスマネージドアカウントシステムを介してのみアクセスできます。

SageMaker HyperPod での Nova モデルのカスタマイズは、最適なパフォーマンスを実現するために、サービスマネージド FSx for Lustre ファイルシステムに依存しています。RIG を作成するときは、インスタンスグループ内のすべてのワーカーノードにマウントされる FSx for Lustre ファイルシステムのボリュームサイズとスループットを指定する必要があります。FSx for Lustre は、分散トレーニング中に中間チェックポイントと内部モデルの状態を保存するために使用されます。レシピに記載されているガイダンスに従って、十分なキャパシティとパフォーマンスを確保するために適切なボリュームサイズとスループットを選択します。FSx for Lustre の使用コストが AWS アカウントに適用されます。

HyperPod EKS クラスターの RIG に関する重要な注意事項

  • RIG では、 アクセス許可の実行ロールのみがサポートされています。Amazon S3 へのアクセスなど、必要な IAM アクセス許可が実行ロールに含まれていることを確認します。

  • サービスマネージド Amazon FSx for Lustre と Amazon S3 を使用する場合は、FSx for Lustre ファイルシステムがワークロードに適したサイズになっていることを確認します。トレーニングデータマニフェストは Amazon S3 にアップロードされます。Amazon S3 には実行ロールからアクセス可能である必要があります。

  • 2025 年 7 月 16 日以降に作成された新しい SageMaker HyperPod EKS クラスター上で RIG を作成または更新する必要があります。この日付より前に作成されたクラスターには、RIG でサポートされていない、互換性のないソフトウェアバージョンまたは設定が含まれている可能性があります。

  • RIG を使用した HyperPod EKS クラスターの作成は AWS リージョン us-east-1 でのみサポートされています。

制限されたインスタンスグループを使用して HyperPod EKS クラスターを作成する (コンソール - 推奨)

このセクションでは、AWS マネジメントコンソール を使用して Amazon Nova をカスタマイズするための制限されたインスタンスグループによって HyperPod EKS クラスターを作成するための詳細な手順について説明します。詳細については、「Amazon EKS オーケストレーションを使用した SageMaker HyperPod クラスターの作成」を参照してください。

注記

制限されたインスタンスグループでサポートされている唯一の AWS リージョンであるため、us-east-1 にクラスターを作成する必要があります。

  1. Amazon SageMaker AI コンソール (https://console.aws.amazon.com/sagemaker/) を開きます。

  2. 左側のナビゲーションペインで、 [HyperPod クラスター] を選択し、[クラスターの管理] をクリックします。

  3. [SageMaker HyperPod クラスター] ページで [HyperPod クラスターを作成] をクリックします。

  4. [HyperPod クラスターを作成] ドロップダウンで、[Amazon EKS によるオーケストレーション] を選択します。

  5. クラスター作成ページで、[高速セットアップ] をクリックします。このオプションを使用すると、すぐにデフォルト設定で使用開始できます。SageMaker AI は、クラスターの作成中に VPC、サブネット、セキュリティグループ、Amazon S3 バケット、IAM ロール、FSx for Lustre などの新しいリソースを作成します。

  6. [全般設定] で、新しいクラスターの名前を指定します。クラスター名は、クラスターの作成後には変更できません。

  7. [インスタンスグループ] で、[グループを追加] をクリックします。インスタンスグループごとに異なる方法で設定でき、さまざまなインスタンスタイプを持つ複数のインスタンスグループで構成される異種クラスターを作成できます。クラスターをデプロイするには、少なくとも 1 つのインスタンスグループを追加する必要があります。一度に追加できるインスタンスグループは 1 つです。複数のインスタンスグループを作成するには、インスタンスグループごとにこのプロセスを繰り返します。

    インスタンスグループを追加するには、次の手順を実行します。

    1. [インスタンスグループのタイプ][制限付きインスタンスグループ (RIG)] を選択します。[制限付きインスタンスグループ (RIG)] は、Amazon Nova などの基盤モデルのカスタマイズに特化した環境です。[標準] は、追加のセキュリティ制限なしで汎用コンピューティング環境を提供します。

    2. [名前] には、インスタンスグループ名を入力します。

    3. [インスタンスキャパシティ] については、オンデマンドキャパシティまたはトレーニングプランを選択してコンピューティングリソースを予約します。

    4. [インスタンスタイプ] では、インスタンスグループのインスタンスを選択します。ml.p5.48xlarge など、Amazon Nova モデルのカスタマイズをサポートしているインスタンスタイプを選択する必要があります。また、AWS アカウントで十分なクォータがあるインスタンスタイプを選択するようにしてください。追加のクォータをリクエストするには、「SageMaker HyperPod クォータ」を参照してください。

    5. [インスタンス数量] で、クラスターの使用についてインスタンスクォータを超えない整数を指定します。このクイックスタートでは、作成する制限付きインスタンスに「1」を入力します。

    6. [ターゲットアベイラビリティーゾーン] では、インスタンスをプロビジョニングするアベイラビリティーゾーンを選択します。アベイラビリティーゾーンは、高速コンピューティングキャパシティの場所に対応している必要があります。

    7. [インスタンスあたりの追加のストレージボリューム (GB)] (オプション) で、1~16384 の整数を指定して、追加の Elastic Block Store (EBS) ボリュームのサイズをギガバイト (GB) 単位で設定します。EBS ボリュームは、インスタンスグループの各インスタンスにアタッチされます。追加の EBS ボリュームのデフォルトのマウントパスは /opt/sagemaker です。クラスターが正常に作成されたら、クラスターインスタンス (ノード) に SSH 接続し、df -h コマンドを実行して EBS ボリュームが正しくマウントされていることを確認できます。追加の EBS ボリュームをアタッチすると、「Amazon Elastic Block Store ユーザーガイド」の「Amazon EBS ボリューム」セクションで説明されているように、インスタンスから独立した永続性を持つ安定したストレージが実現します。

    8. [インスタンスのディープヘルスチェック] でオプションを選択します。ディープヘルスチェックは、作成中およびソフトウェア更新後にインスタンスのヘルスをモニタリングします。これを有効にすると再起動または置換が原因で障害が発生したインスタンスが自動的に復旧します。

    9. [インスタンスグループを追加] をクリックします。

  8. [クイック設定デフォルト] でデフォルト設定を確認します。このセクションでは、クラスター作成プロセス中に作成されるすべての新しい AWS リソースを含む、クラスター作成のすべてのデフォルト設定を一覧表示しています。

  9. [Submit] を選択してください。

制限されたインスタンスグループを使用して HyperPod EKS クラスターを作成する (CLI)

AWS CLI を使用して RIG がある HyperPod EKS クラスターを作成するには、こちらの手順に従います。