キャパシティブロック (CB) を使用してインスタンスを起動する - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

キャパシティブロック (CB) を使用してインスタンスを起動する

AWS ParallelCluster は、機械学習のオンデマンドキャパシティ予約 (ODCR) とキャパシティブロック (CB) をサポートしています。 Machine Learning ODCR とは異なり、CB は将来の開始時間を持つ場合があり、期限があります。ODCR を使用した起動の詳細については、「オンデマンドキャパシティ予約 (ODCR) を使用したインスタンスの起動」を参照してください。

での CB の使用 AWS ParallelCluster

CB を使用するように新規または既存のクラスターを設定するには、まず AWS アカウントに有効な CB が必要です。 AWS マネジメントコンソール、 AWS Command Line Interface、または SDK を使用して、公式ドキュメントに従って利用可能な CB を検索して購入できます。有効な CB を取得したら、 AWS ParallelCluster 設定ファイルに CB Amazon リソースネーム (ARN) と関連するパラメータを設定できます。詳細については、「キャパシティブロック (CB) の検索と購入」を参照してください。

クラスター設定の CB

特定のキューに CB を使用するには、 CapacityReservationIdパラメータを使用する必要があります。それを既存の CB ID に設定します。CB ARN は、CB の作成に使用した AWS マネジメントコンソール、 AWS CLI、または SDK から取得できます。

CB を使用するキューCapacityType = CAPACITY_BLOCKに を設定する必要があります。コンピューティングリソースInstanceTypeの に設定します (CB の Amazon Elastic Compute Cloud インスタンスタイプと同じ)。

CapacityReservationId コンピューティングリソースレベルで を指定すると、予約から自動的に取得されるため、 InstanceType はオプションです。

を使用する場合CapacityType = CAPACITY_BLOCK、CB 予約の一部であるすべてのインスタンスは静的ノードとして管理されるため、 は 0 MinCount以上MaxCountである必要があります。

クラスターの作成時に、ヘッドノードはすべての静的ノードの準備が整うのを待ってから、クラスターの作成の成功を知らせます。ただし、 を使用する場合CapacityType = CAPACITY_BLOCK、 に関連付けられたコンピューティングリソースの一部であるノードは、このチェックでは考慮されません。クラスターは、設定されているすべての がアクティブでなくても作成されます。

次の設定ファイルスニペットは、 AWS ParallelCluster 設定ファイルで を有効にするために必要なパラメータを示しています。

SlurmQueues: - Name: string CapacityType: CAPACITY_BLOCK ComputeResources: - Name: string InstanceType: String (EC2 Instance type of the CB) MinCount: integer (<= total capacity of the CB) MaxCount: integer (equal to MinCount) CapacityReservationTarget: CapacityReservationId: String (CB id)

がキャパシティブロック (CB) AWS ParallelCluster を使用する方法

AWS ParallelCluster は、 に関連付けられた静的ノードを特殊な方法で管理します。 AWS ParallelCluster は、CB がまだアクティブでなくてもクラスターを作成し、CB がアクティブになるとインスタンスが自動的に起動されます。

コンピューティングリソースに対応し、 に関連付けられていて、まだアクティブではないSlurmノードは、CB 開始時刻に達するまでメンテナンスに保持されます。 Slurmノードは予約/メンテナンス状態のままで、slurm 管理者ユーザーに関連付けられます。つまり、ジョブを受け入れることはできますが、予約が削除されpendingるまでジョブは残ります。

AWS ParallelCluster はSlurm予約を自動的に更新し、関連する CB ノードをメンテナンス状態 (CB 状態に対応) にします。CB がアクティブな場合、Slurm予約は削除され、ノードは保留中のジョブまたは新しいジョブ送信で起動して使用可能になります。

CB 終了時刻に達すると、ノードは予約/メンテナンス状態に戻ります。CB がアクティブでなくなり、インスタンスが終了すると、ジョブを新しいキュー/コンピューティングリソースに再送信/再クエリするかどうかはユーザー次第です。