PCS でのカスタム Slurm AWS 設定の設定 - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PCS でのカスタム Slurm AWS 設定の設定

カスタム Slurm 設定を使用して、クラスター、キュー、コンピューティングノードグループのリソース全体で追加の Slurm パラメータを設定します。このリリースでは、キューリソースでの Slurm 設定のサポートが追加され、パーティション固有の動作をきめ細かく制御できるようになりました。

カスタム Slurm 設定の利点

カスタム Slurm 設定では、PCS AWS ベースの HPC 環境を詳細に制御できます。quality-of-service設定とプリエンプションポリシーを使用して、詳細なアカウンティングを実装し、アクセスコントロールを適用し、ワークロードの実行を最適化できます。これらの機能により、重要なジョブは効率的なクラスター使用率を維持しながら、必要なリソースを受け取ることができます。GPU アクセラレーションワークロードの管理、公平配分スケジューリングの実装、ジョブライフサイクルの制御のいずれであっても、カスタム設定は HPC インフラストラクチャを運用要件と研究目標に合わせるのに役立ちます。

カスタム設定の構成

カスタム Slurm 設定は、リソースの作成時に AWS コンソール、CLI、または SDKs を使用して設定することも、更新オペレーションを通じて後で変更することもできます。

AWS Management Console

任意のリソースタイプ (クラスター、キュー、またはコンピューティングノードグループ) の作成または編集ページの追加のスケジューラ設定に移動します。

新しい設定を追加するには
  1. 新しい設定の追加 を選択します。

  2. ドロップダウンからパラメータ名を選択します (簡単なパラメータの説明を含む)。

  3. 対応する値を指定します。

カスタム設定を解除するには
  1. 関連するパラメータと値のペアの横にある削除を選択します。

  2. リソースを作成または更新します。

AWS CLI

カスタム設定をプログラムで管理するには、作成または更新オペレーションで SlurmCustomSettingsフィールドを使用します。

例 – クラスターの Prologパラメータの更新
aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
例 – クラスターDefaultの にキューを設定する
aws pcs update-queue \ --cluster-identifier my-cluster \ --queue-identifier my-queue \ --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
例 – コンピューティングノードグループFeaturesでのカスタム設定
aws pcs update-compute-node-group \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-cng-1 \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

検証とエラー処理

AWS PCS は、カスタム Slurm 設定の多層検証プロセスを実装します。作成オペレーションと更新オペレーションの両方で、以下を含む同期検証を実行します。

  • フィールドレベルのチェック: 正しいデータ型、許容値、形式要件について個々の設定を検証します。例えば、時間値が正しい Slurm 形式であることを確認し、ブール値は受け入れられた Slurm ブール表現を使用します。

  • コンテキスト対応の検証: 一部の設定は、より広範な設定コンテキストに対してチェックされます。たとえば、特定のパラメータは Slurm アカウンティングが有効になっている場合にのみ有効です。

  • 設定間の一貫性: 相互に排他的なオプションが一緒に設定されておらず、相互依存する設定が正しく設定されていることを確認します。

検証が失敗すると、特定のエラーコード (InvalidInput など)、問題を説明する明確なエラーメッセージ、無効なフィールドのリスト、およびそれぞれのエラーの詳細ValidationExceptionを含む が表示されます。

この初回検証中に多くの問題がキャッチされますが、設定間の複雑なやり取りは、設定を適用するときにのみ明らかになる場合があります。このような場合、オペレーションは失敗し、有益なエラーメッセージが表示され、部分的な変更はロールバックされます。

制限

AWS PCS は、サービスのセキュリティと運用の安定性を保護するための許可リストアプローチを実装しています。サービスアカウントのセキュリティを侵害したり、マネージドサービス機能を妨害したりする可能性のある設定は制限されます。ただし、お客様のニーズを継続的に評価し、お客様からのフィードバックに基づいて追加の設定のサポートを追加できます。