翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PCS でのカスタム Slurm AWS 設定の設定
カスタム Slurm 設定を使用して、クラスター、キュー、コンピューティングノードグループのリソース全体で追加の Slurm パラメータを設定します。このリリースでは、キューリソースでの Slurm 設定のサポートが追加され、パーティション固有の動作をきめ細かく制御できるようになりました。
カスタム Slurm 設定の利点
カスタム Slurm 設定では、PCS AWS ベースの HPC 環境を詳細に制御できます。quality-of-service設定とプリエンプションポリシーを使用して、詳細なアカウンティングを実装し、アクセスコントロールを適用し、ワークロードの実行を最適化できます。これらの機能により、重要なジョブは効率的なクラスター使用率を維持しながら、必要なリソースを受け取ることができます。GPU アクセラレーションワークロードの管理、公平配分スケジューリングの実装、ジョブライフサイクルの制御のいずれであっても、カスタム設定は HPC インフラストラクチャを運用要件と研究目標に合わせるのに役立ちます。
カスタム設定の構成
カスタム Slurm 設定は、リソースの作成時に AWS コンソール、CLI、または SDKs を使用して設定することも、更新オペレーションを通じて後で変更することもできます。
検証とエラー処理
AWS PCS は、カスタム Slurm 設定の多層検証プロセスを実装します。作成オペレーションと更新オペレーションの両方で、以下を含む同期検証を実行します。
-
フィールドレベルのチェック: 正しいデータ型、許容値、形式要件について個々の設定を検証します。例えば、時間値が正しい Slurm 形式であることを確認し、ブール値は受け入れられた Slurm ブール表現を使用します。
-
コンテキスト対応の検証: 一部の設定は、より広範な設定コンテキストに対してチェックされます。たとえば、特定のパラメータは Slurm アカウンティングが有効になっている場合にのみ有効です。
-
設定間の一貫性: 相互に排他的なオプションが一緒に設定されておらず、相互依存する設定が正しく設定されていることを確認します。
検証が失敗すると、特定のエラーコード (InvalidInput など)、問題を説明する明確なエラーメッセージ、無効なフィールドのリスト、およびそれぞれのエラーの詳細ValidationException
を含む が表示されます。
この初回検証中に多くの問題がキャッチされますが、設定間の複雑なやり取りは、設定を適用するときにのみ明らかになる場合があります。このような場合、オペレーションは失敗し、有益なエラーメッセージが表示され、部分的な変更はロールバックされます。
制限
AWS PCS は、サービスのセキュリティと運用の安定性を保護するための許可リストアプローチを実装しています。サービスアカウントのセキュリティを侵害したり、マネージドサービス機能を妨害したりする可能性のある設定は制限されます。ただし、お客様のニーズを継続的に評価し、お客様からのフィードバックに基づいて追加の設定のサポートを追加できます。