翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon EKS オーケストレーションを使用した SageMaker HyperPod クラスターの作成
次のチュートリアルでは、新しい SageMaker HyperPod クラスターを作成し、SageMaker AI コンソール UI を介して Amazon EKS オーケストレーションを設定する方法を説明します。
このトピックの内容
クラスターを作成する
SageMaker HyperPod クラスターページに移動し、Amazon EKS オーケストレーションを選択するには、次の手順に従います。
Amazon SageMaker AI コンソール (https://console.aws.amazon.com/sagemaker/
) を開きます。 -
左側のナビゲーションペインで、 [HyperPod クラスター] を選択し、[クラスターの管理] をクリックします。
-
[SageMaker HyperPod クラスター] ページで [HyperPod クラスターを作成] をクリックします。
-
[HyperPod クラスターを作成] ドロップダウンで、[Amazon EKS によるオーケストレーション] を選択します。
-
EKS クラスターの作成ページで、2 つのオプションが表示されます。ニーズに最適なオプションを選択します。
-
高速セットアップ - デフォルト設定をすぐに開始するには、[高速セットアップ] をクリックします。このオプションを使用すると、SageMaker AI はクラスターの作成中に VPC、サブネット、セキュリティグループ、Amazon S3 バケット、IAM ロール、FSx for Lustre などの新しいリソースを作成します。
-
カスタムセットアップ - 既存の AWS リソースと統合したり、特定のネットワーク、セキュリティ、ストレージ要件を設定したりするには、[カスタムセットアップ] を選択します。このオプションでは、既存のリソースを使用するか、新しいリソースを作成するかを選択できます。また、ニーズに最適な設定をカスタマイズできます。
-
高速セットアップセクションで、以下の手順に従って Amazon EKS オーケストレーションを使用して HyperPod クラスターを作成します。
全般設定
新しいクラスターの名前を指定します。クラスター名は、クラスターの作成後には変更できません。
インスタンスグループ
インスタンスグループを追加するには、[グループを追加] をクリックします。インスタンスグループごとに異なる方法で設定でき、さまざまなインスタンスタイプを持つ複数のインスタンスグループで構成される異種クラスターを作成できます。クラスターをデプロイするには、少なくとも 1 つのインスタンスグループを追加する必要があります。インスタンスグループを追加するには、次の手順を実行します。
-
[インスタンスグループのタイプ] で、[標準] または [制限付きインスタンスグループ (RIG)] を選択します。通常、追加のセキュリティ制限なしで汎用コンピューティング環境を提供する [標準] を選択します。[制限付きインスタンスグループ (RIG)] は、Amazon Nova などの基盤モデルのカスタマイズに特化した環境です。Amazon Nova モデルのカスタマイズ用に RIG を設定する方法の詳細については、「Amazon SageMaker HyperPod での Amazon Nova のカスタマイズ」を参照してください。
-
[名前] には、インスタンスグループ名を入力します。
-
[インスタンスキャパシティ] については、オンデマンドキャパシティまたはトレーニングプランを選択してコンピューティングリソースを予約します。
-
[インスタンスタイプ] では、インスタンスグループのインスタンスを選択します。
重要
アカウントに十分なクォータと十分な未割り当ての IP アドレスを持つインスタンスタイプを選択します。追加のクォータを表示またはリクエストするには、「SageMaker HyperPod クォータ」を参照してください。
-
[インスタンスの数量] で、クラスターの使用についてインスタンスクォータを超えない整数を指定します。このチュートリアルでは、3 つのグループすべてに「1」と入力します。
-
[ターゲットアベイラビリティーゾーン] では、インスタンスをプロビジョンするアベイラビリティーゾーンを選択します。アベイラビリティーゾーンは、高速コンピューティングキャパシティの場所に対応している必要があります。
-
[インスタンスあたりの追加のストレージボリューム (GB)] (オプション) で、1~16384 の整数を指定して、追加の Elastic Block Store (EBS) ボリュームのサイズをギガバイト (GB) 単位で設定します。EBS ボリュームは、インスタンスグループの各インスタンスにアタッチされます。追加の EBS ボリュームのデフォルトのマウントパスは
/opt/sagemakerです。クラスターが正常に作成されたら、クラスターインスタンス (ノード) に SSH 接続し、df -hコマンドを実行して EBS ボリュームが正しくマウントされているかどうかを確認できます。追加の EBS ボリュームをアタッチすると、「Amazon Elastic Block Store ユーザーガイド」の「Amazon EBS ボリューム」セクションで説明されているように、インスタンスから独立した永続性を持つ安定したストレージが実現します。 -
[インスタンスのディープヘルスチェック] でオプションを選択します。ディープヘルスチェックは、作成中およびソフトウェア更新後にインスタンスのヘルスをモニタリングします。これを有効にすると再起動または置換が原因で障害が発生したインスタンスが自動的に復旧します。
-
インスタンスタイプがマルチインスタンス GPU (MIG) による GPU パーティショニングをサポートしている場合は、インスタンスグループの GPU パーティション設定を有効にできます。GPU パーティショニングを使用すると、GPUsを分離された小さなパーティションに分割して、リソース使用率を向上させることができます。詳細については、「Amazon SageMaker HyperPod での GPU パーティションの使用 HyperPod」を参照してください。
-
切り替え GPU パーティションを使用して、このインスタンスグループの GPU パーティショニングを有効にします。
-
インスタンスタイプで使用可能なオプションから GPU パーティションプロファイルを選択します。各プロファイルは GPU スライス設定とメモリ割り当てを定義します。
-
-
[インスタンスグループを追加] をクリックします。
高速セットアップのデフォルト
このセクションでは、クラスター作成プロセス中に作成されるすべての新しいAWSリソースを含む、クラスター作成のすべてのデフォルト設定を一覧表示します。デフォルト設定を確認します。
カスタムセットアップセクションで、以下の手順に従って Amazon EKS オーケストレーションを使用し、最初の HyperPod クラスターを作成します。
全般設定
新しいクラスターの名前を指定します。クラスター名は、クラスターの作成後には変更できません。
[インスタンスリカバリ] では、[自動 - 推奨] または [なし] を選択します。
ネットワーク
クラスター内およびクラスターの内外のネットワーク設定を構成します。Amazon EKS による SageMaker HyperPod クラスターのオーケストレーションの場合、VPC は選択した EKS クラスターで設定された内容に自動的に設定されます。
-
VPC では、SageMaker AI に VPC へのアクセスを許可する VPC が既にある場合、独自の VPC を選択します。新しい VPC を作成するには、「Amazon Virtual Private Cloud ユーザーガイド」の「VPC を作成する」の手順に従います。デフォルトの SageMaker AI VPC を使用するには、[なし] のままにします。
-
[VPC IPv4 CIDR ブロック] には、VPC の開始 IP を入力します。
-
[アベイラビリティーゾーン] では、HyperPod がクラスターのサブネットを作成するアベイラビリティーゾーン (AZ) を選択します。高速コンピューティングキャパシティの場所に一致する AZ を選択します。
-
セキュリティグループでは、Amazon EKS クラスターにアタッチされているセキュリティグループ、または Amazon EKS クラスターに関連付けられたセキュリティグループがインバウンドトラフィックを許可しているセキュリティグループを選択します。新しいセキュリティグループを作成するには、Amazon VPC コンソールに移動します。
オーケストレーション
オーケストレーターとして使用する Amazon EKS クラスターを作成または選択するには、次の手順に従います。
-
[EKS クラスター] では、新しい Amazon EKS クラスターを作成するか、既存のクラスターを使用するかを選択します。
新しい EKS クラスターを作成する必要がある場合は、Amazon EKS コンソールを開く必要なく、EKS クラスターセクションからクラスターを作成できます。
注記
HyperPod 用に選択した VPC サブネットは、プライベートでなければなりません。
新しい EKS クラスター作成リクエストを送信したら、EKS クラスターが
Activeになるまで待ちます。 -
[Kubernetes バージョン] では、ドロップダウンメニューからバージョンを選択します。Kubernetes バージョンの詳細については、「Amazon EKS ユーザーガイド」の「EKS の Kubernetes バージョンライフサイクルを理解する」を参照してください。
-
[演算子] では、[デフォルトの Helm チャートとアドオンを使用する] または [オペレータをインストールしないでください] を選択します。オプションはデフォルトで [デフォルトの Helm チャートとアドオンを使用する] を使用します。これは EKS クラスターに演算子をインストールするために使用されます。デフォルトの Helm チャートとアドオンの詳細については、GitHub リポジトリの「
helm_chart」を参照してください。詳細については、「Helm を使用して Amazon EKS クラスターにパッケージをインストールする」を参照してください。 -
[有効なオペレータ] では、有効になっている演算子のリストが表示されます。演算子を編集するには、上部のチェックボックスをオフにし、EKS クラスターに対して有効にする演算子を選択します。
注記
EKS で HyperPod を使用するには、EKS クラスターで演算子を有効にする Helm チャートとアドオンをインストールする必要があります。これらのコンポーネントは、EKS を HyperPod のコントロールプレーンとして設定し、ワークロード管理とオーケストレーションに必要なセットアップを提供します。
インスタンスグループ
インスタンスグループを追加するには、[グループを追加] をクリックします。インスタンスグループごとに異なる方法で設定でき、さまざまなインスタンスタイプを持つ複数のインスタンスグループで構成される異種クラスターを作成できます。クラスターをデプロイするには、少なくとも 1 つのインスタンスグループを追加する必要があります。インスタンスグループを追加するには、次の手順を実行します。
-
[インスタンスグループのタイプ] で、[標準] または [制限付きインスタンスグループ (RIG)] を選択します。通常、追加のセキュリティ制限なしで汎用コンピューティング環境を提供する [標準] を選択します。[制限付きインスタンスグループ (RIG)] は、Amazon Nova などの基盤モデルのカスタマイズに特化した環境です。Amazon Nova モデルのカスタマイズ用に RIG を設定する方法の詳細については、「Amazon SageMaker HyperPod での Amazon Nova のカスタマイズ」を参照してください。
-
[名前] には、インスタンスグループ名を入力します。
-
[インスタンスキャパシティ] については、オンデマンドキャパシティまたはトレーニングプランを選択してコンピューティングリソースを予約します。
-
[インスタンスタイプ] では、インスタンスグループのインスタンスを選択します。
重要
アカウントに十分なクォータと十分な未割り当ての IP アドレスを持つインスタンスタイプを選択します。追加のクォータを表示またはリクエストするには、「SageMaker HyperPod クォータ」を参照してください。
-
[インスタンスの数量] で、クラスターの使用についてインスタンスクォータを超えない整数を指定します。このチュートリアルでは、3 つのグループすべてに「1」と入力します。
-
[ターゲットアベイラビリティーゾーン] では、インスタンスをプロビジョンするアベイラビリティーゾーンを選択します。アベイラビリティーゾーンは、高速コンピューティングキャパシティの場所に対応している必要があります。
-
[インスタンスあたりの追加のストレージボリューム (GB)] (オプション) で、1~16384 の整数を指定して、追加の Elastic Block Store (EBS) ボリュームのサイズをギガバイト (GB) 単位で設定します。EBS ボリュームは、インスタンスグループの各インスタンスにアタッチされます。追加の EBS ボリュームのデフォルトのマウントパスは
/opt/sagemakerです。クラスターが正常に作成されたら、クラスターインスタンス (ノード) に SSH 接続し、df -hコマンドを実行して EBS ボリュームが正しくマウントされているかどうかを確認できます。追加の EBS ボリュームをアタッチすると、「Amazon Elastic Block Store ユーザーガイド」の「Amazon EBS ボリューム」セクションで説明されているように、インスタンスから独立した永続性を持つ安定したストレージが実現します。 -
[インスタンスのディープヘルスチェック] でオプションを選択します。ディープヘルスチェックは、作成中およびソフトウェア更新後にインスタンスのヘルスをモニタリングします。これを有効にすると再起動または置換が原因で障害が発生したインスタンスが自動的に復旧します。詳細については、「ディープヘルスチェック」を参照してください。
-
GPU パーティションの使用 - オプションで、インスタンスタイプがマルチインスタンス GPU (MIG) による GPU パーティショニングをサポートしている場合は、このオプションを有効にしてインスタンスグループの GPU パーティションプロファイルを設定できます。GPU パーティショニングを使用すると、GPUsを分離された小さなパーティションに分割して、リソース使用率を向上させることができます。詳細については、「Amazon SageMaker HyperPod での GPU パーティションの使用 HyperPod」を参照してください。
-
切り替え GPU パーティションを使用して、このインスタンスグループの GPU パーティショニングを有効にします。
-
インスタンスタイプで使用可能なオプションから GPU パーティションプロファイルを選択します。各プロファイルは GPU スライス設定とメモリ割り当てを定義します。
-
-
[インスタンスグループを追加] をクリックします。
ライフサイクルスクリプト
デフォルトのライフサイクルスクリプトを使用するか、Amazon S3 バケットに保存されるカスタムライフサイクルスクリプトを使用するかを選択できます。Awsome Distributed Training GitHub リポジトリ
-
[ライフサイクルスクリプト] では、デフォルトまたはカスタムのライフサイクルスクリプトの使用を選択します。
-
[ライフサイクルスクリプトの S3 バケット] では、新しいバケットを作成するか、既存のバケットを使用してライフサイクルスクリプトを保存するかを選択します。
権限
HyperPod がユーザーに代わって必要なAWSリソースを実行およびアクセスできるようにする IAM ロールを選択または作成します。詳細については、「SageMaker HyperPod の IAM ロール」を参照してください。
[ストレージ]
HyperPod クラスターでプロビジョンする Lustre ファイルシステム用 FSx を設定します。
-
[ファイルシステム] では、Lustre ファイルシステム用の既存の FSx を選択するか、新しい Lustre ファイルシステム用 FSx を作成するか、新しい Lustre ファイルシステム用 FSx をプロビジョンしないことを選択できます。
-
[ストレージユニットあたりのスループット] では、プロビジョンするストレージの TiB ごとに利用できるスループットを選択します。
-
[ストレージキャパシティ] には、キャパシティの値を TB 単位で入力します。
-
[データ圧縮タイプ] では、[LZ4] を選択してデータ圧縮を有効にします。
-
[Lustre バージョン] では、新しいファイルシステムに推奨される値を確認します。
タグ - オプション
タグ - オプションで、新しいクラスターにキーと値のペアを追加し、クラスターを AWSリソースとして管理します。詳細については、「AWS リソースのタグ付け」を参照してください。
リソースのデプロイ
[高速セットアップ] または [カスタムセットアップ] を使用してクラスター設定を完了したら、次のオプションを選択してリソースのプロビジョンとクラスターの作成を開始します。
-
送信 - SageMaker AI はデフォルトの設定リソースのプロビジョンとクラスターの作成を開始します。
-
CloudFormation テンプレートパラメータをダウンロード - 設定パラメータ JSON ファイルをダウンロードして、AWS CLI コマンドを実行して CloudFormation スタックをデプロイし、設定リソースをプロビジョンしてクラスターを作成します。必要に応じて、ダウンロードしたパラメータ JSON ファイルを編集できます。このオプションを選択した場合は、「CloudFormationテンプレートを使用した SageMaker HyperPod クラスターの作成」の詳細な手順を参照してください。