翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
研究コンピューティング用のクラウドバースト
米国の R1 (Doctoral Universities – Very High Research Activity) 研究機関の研究コンピューティンググループは、長年 Slurm スケジューラを使用してオンプレミスのハイパフォーマンスコンピューティング (HPC) クラスターを実行していました。数週間のスケジュールされたメンテナンスを除き、クラスターは 80~95% の使用率で実行され、ほとんどのキューがいっぱいでした。
施設での研究活動の増加により、容量と能力の課題が発生しました。いくつかの著名な研究者が、特定のキューで長時間実行されるシミュレーションを常に実行していたため、他のユーザーの待機時間が長くなりました。新しく採用された教員は、気象予測用の新しい人工知能と機械学習 (AI/ML) モデルを構築するために多数の気象シミュレーションを実行する必要がありましたが、利用可能な容量よりも多くの容量が必要でした。研究コンピューティンググループは、機械学習モデルをトレーニングするための最新のグラフィックス処理ユニット (GPUs) に対するより多くのリクエストも受けていました。新しい GPUs の資金があっても、チームはデータセンター内のラックスペースの拡大の承認を得るために数か月待つ必要があります。
多くの研究者は古いデータを削除することを望まなかったため、ローカルストレージ容量も課題でした。オンプレミスで価値のある高性能ストレージを解放するには、よりスケーラブルで長期的なストレージオプションが必要でした。
クラウドは、オンプレミスの容量では不十分な場合に研究コンピューティングをクラウドにバーストできるハイブリッドコンピューティングおよびストレージソリューションで、これらの課題に対処します。次のアーキテクチャ図は、 AWS ParallelCluster
このアーキテクチャは、次の推奨事項に従います。
-
主要な戦略的クラウドプロバイダーを選択します。 このアーキテクチャでは、1 つのプライマリクラウドプロバイダーを使用して、最も一般的でない分母アプローチによる制限を回避します。これにより、この機関は、プライマリクラウドプロバイダーが提供するイノベーションとネイティブのコンピューティングおよびストレージサービスを活用できます。研究コンピューティングチームは、異なるクラウド環境での作業方法ではなく、プライマリクラウドプロバイダーが提供する環境のワークロードの最適化に集中できます。
-
各クラウドサービスプロバイダーのセキュリティとガバナンスの要件を確立します。 このアーキテクチャで使用される各サービスとツールは、プライベート接続、転送中および保管中のデータ暗号化、アクティビティログ記録など、研究コンピューティングチームのセキュリティおよびガバナンス要件を満たすように設定できます。
-
可能な限り、実用的なクラウドネイティブのマネージドサービスを採用します。 このアーキテクチャでは、マネージドストレージとコンピューティングサービス、およびクラスター管理を簡素化するツールを使用できます。これにより、研究コンピューティングチームはクラスターや基盤となるインフラストラクチャを独自に管理することを心配する必要がなくなり、複雑で時間がかかる可能性があります。
-
既存のオンプレミス投資が継続的な使用にインセンティブを与える場合は、ハイブリッドアーキテクチャを実装します。 このアーキテクチャにより、オンプレミスリソースを引き続き使用し、クラウドを活用して容量を増やし、オンデマンドでコンピューティング能力を拡張できます。クラウドでは、コンピューティングタイプを適正にサイズ設定して価格パフォーマンスを最大化し、最新のテクノロジーにアクセスしてイノベーションを推進できます。オンプレミスの追加のハードウェアに多額の先行投資をする必要はありません。