複数のキューの設定 - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

複数のキューの設定

AWS ParallelCluster バージョン 3 では、 Schedulerを に設定slurmし、設定ファイルSlurmQueuesで に複数のキューを指定することで、複数のキューを設定できます。このモードでは、設定ファイルの ComputeResources セクションで指定されているコンピューティングノードに異なるインスタンスタイプが共存します。異なるインスタンスタイプの ComputeResources は、SlurmQueues の必要に応じてスケールアップまたはスケールダウンされます。

ワークロードが同じ基盤となるインフラストラクチャとリソース (共有ストレージ、ネットワーク、ログインノードなど) を共有する場合、通常、1 つのクラスター内の複数のキューが複数のクラスターよりも優先されます。ワークロードのコンピューティング、ストレージ、ネットワークのニーズが類似している場合、1 つのクラスター内で複数のキューを使用すると、リソース共有が可能になり、不要な重複を回避できるため、効率が向上します。このアプローチは、効率的なジョブスケジューリングとリソース割り当てを可能にしながら、管理を簡素化し、オーバーヘッドを削減します。一方、ワークロード間に強力なセキュリティ、データ、または運用分離要件がある場合は、複数のクラスターを使用する必要があります。たとえば、異なるスケジュール、更新サイクル、またはアクセスポリシーでワークロードを個別に管理および運用する必要がある場合は、複数のクラスターが適しています。

クラスターキューとコンピューティングリソースのクォータ
リソース クォータ

Slurm queues

クラスターあたり 50 キュー

Compute resources

1 キューあたり 50 のコンピューティングリソース

1 クラスターあたり 50 のコンピューティングリソース

ノード数

キュー内の ComputeResources の各コンピューティングリソースには、固有の NameInstanceTypeMinCount、および MaxCount が必要です。MinCount および MaxCount は、キュー内の ComputeResources でコンピューティングリソースのインスタンス範囲を定義するデフォルト値があります。MinCount および MaxCount には独自の値を指定することもできます。ComputeResources 内の各コンピューティングリソースは、1 からMinCount の値までの番号が付けられた静的ノードと、MinCount の値から MaxCount の値までの番号が付けられた動的ノードで構成されます。

サンプルの構成

クラスター設定ファイルの Scheduling セクションの例を次に示します。この設定では、queue1 および queue2 という 2 つのキューがあり、それぞれのキューには MaxCount を指定した ComputeResources があります。

Scheduling: Scheduler: slurm SlurmQueues: - Name: queue1 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge - InstanceType: c4.xlarge MaxCount: 5 Name: c4xlarge - Name: queue2 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge

HostNames

コンピューティングフリートに起動されるインスタンスは、動的に割り当てられます。各ノードにはホスト名が生成されます。デフォルトでは AWS ParallelCluster 、 はホスト名 の次の形式を使用します。

$HOSTNAME=$QUEUE-$STATDYN-$COMPUTE_RESOURCE-$NODENUM

  • $QUEUE はキューの名前です。例えば、SlurmQueues セクションに Name を「queue-name」に設定したエントリーがある場合、「$QUEUE」は「queue-name」になります。

  • $STATDYN は、静的ノードの場合は st、動的ノードの場合は dy です。

  • $COMPUTE_RESOURCE は、このノードに対応する ComputeResources コンピューティングリソースの Name です。

  • $NODENUM はノードの番号です。$NODENUM は、静的ノードの場合は 1 から MinCount までの値、動的ノードの場合は 1 から MaxCount - MinCount までの値です。

上記の設定ファイルの例では、queue1 のノードと c5xlarge のコンピューティングリソースは、ホスト名が queue1-dy-c5xlarge-1 となります。

ホスト名と完全修飾ドメイン名 (FQDN) の両方は、Amazon Route 53 のホストゾーンを使用して作成されます。FQDN は $HOSTNAME.$CLUSTERNAME.pcluster で、$CLUSTERNAME はクラスターの名前です。

Slurm ノード名にも同じ形式が使用されることに注意してください。

ユーザーは、使用するデフォルトのホスト名形式ではなく、コンピューティングノードを使用するインスタンスのデフォルトの Amazon EC2 ホスト名を使用できます AWS ParallelCluster。これを行うには、UseEc2Hostnames パラメータを true に設定します。ただし、Slurmノード名は引き続きデフォルトの AWS ParallelCluster 形式を使用します。