制限されたインスタンスグループ (RIG) を使用した HyperPod EKS クラスターの作成 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

制限されたインスタンスグループ (RIG) を使用した HyperPod EKS クラスターの作成

このトピックでは、制限されたインスタンスグループ (RIG) を使用して Amazon SageMaker HyperPod EKS クラスターを作成する手順について説明します。SageMaker HyperPod EKS クラスターの RIG 設定は、Amazon Nova モデルをトレーニングするための特殊な環境を提供します。RIG には以下の制限があります。

  • RIG ワークロードはインターネットフリー VPC で実行され、すべての入出力は厳密に規制されています。

  • RIG には、Nova モデルトレーニング用の安全な環境を確保するために、Kubectl exec や ログなどの Kubernetes 関数のオブザーバビリティに制限があります。

  • RIG は Nova カスタマイズイメージのみを許可し、他のイメージで実行されているジョブは拒否されます。

HyperPod EKS クラスターでインスタンスグループを設定するときに RIGs を作成できます。これらのリソースのサイズとスケーリングは制御できますが、ワーカーノードに直接アクセスすることはできません。このアーキテクチャにより、Nova コンポーネント (モデルの重み、チェックポイント、トレーニングデータ、コード) には、規制されたチャネルとサービスマネージドアカウントシステムを介してのみアクセスできます。

SageMaker HyperPod での Nova モデルのカスタマイズは、最適なパフォーマンスを実現するために、サービスマネージド FSx for Lustre ファイルシステムに依存しています。RIG を作成するときは、インスタンスグループ内のすべてのワーカーノードにマウントされる FSx for Lustre ファイルシステムのボリュームサイズとスループットを指定する必要があります。FSx for Lustre は、分散トレーニング中に中間チェックポイントと内部モデルの状態を保存するために使用されます。レシピに記載されているガイダンスに従って、十分な容量とパフォーマンスを確保するために適切なボリュームサイズとスループットを選択します。FSx for Lustre の使用コストが に適用されます AWS アカウント。

HyperPod EKS クラスターの RIG に関する重要な注意事項

  • RIG は、 アクセス許可の実行ロールの使用のみをサポートします。実行ロールに Amazon S3 へのアクセスなど、必要な IAM アクセス許可が含まれていることを確認します。

  • サービスマネージド Amazon FSx for Lustre と Amazon S3 を使用する場合は、FSx for Lustre ファイルシステムがワークロードに適したサイズであることを確認します。トレーニングデータマニフェストは Amazon S3 にアップロードされます。Amazon S3 には、実行ロールからアクセス可能である必要があります。

  • RIG は、2025 年 7 月 16 日以降に作成された新しい SageMaker HyperPod EKS クラスターで作成または更新する必要があります。この日付より前に作成されたクラスターには、RIG でサポートされていない互換性のないソフトウェアバージョンまたは設定が含まれている可能性があります。

RIG を使用して HyperPod EKS クラスターを作成する (コンソール)

HyperPod コンソールを使用して RIG で HyperPod EKS クラスターを作成するには、次の手順に従います

RIG を使用して HyperPod EKS クラスターを作成する (CLI)

を使用して RIG を持つ HyperPod EKS クラスターを作成するには、次の手順に従います AWS CLI。