

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# AWS ParallelCluster プロセス
<a name="processes-v3"></a>

このセクションは、Slurm でデプロイされたクラスターに適用されます。このスケジューラで使用すると、 は基盤となるジョブスケジューラと AWS ParallelCluster やり取りして、コンピューティングノードのプロビジョニングと削除を管理します。

に基づく HPC クラスターの場合 AWS Batch、 はコンピューティングノードを管理する AWS Batch ために が提供する機能 AWS ParallelCluster に依存します。

## `clustermgtd`
<a name="clustermgtd-v3"></a>

クラスター管理デーモン (`clustermgtd`) は、次のタスクを実行します。
+ 非アクティブなパーティションをクリーンアップする
+ キャパシティブロックに関連付けられたSlurm予約とノードを管理する (次のセクションを参照)
+ 静的容量を管理して、常に稼働し、正常であることを確認する
+ スケジューラを Amazon EC2 と同期します。
+ 孤立したインスタンスをクリーンアップする
+ 停止ワークフローの外部で発生した Amazon EC2 終了時にスケジューラノードのステータスを復元する
+ 異常な Amazon EC2 インスタンス (Amazon EC2 ヘルスチェックに合格しないインスタンス) を管理する
+ スケジュールされたメンテナンスイベントを管理する
+ 異常なスケジューラノード (スケジューラのヘルスチェックに失敗したノード) を管理する

### キャパシティブロックに関連付けられたSlurm予約とノードの管理
<a name="mgmtofSlurmReservationNodesForCB-v3"></a>

ParallelCluster は、オンデマンドキャパシティ予約 (ODCR) と機械学習用キャパシティブロック (CB) をサポートしています。ODCR とは異なり、CB は将来の開始時間を持つ場合があり、期限があります。

`clustermgtd` はループ内の異常なノードを検索し、ダウンしている Amazon EC2 インスタンスをすべて終了し、静的ノードの場合は新しいインスタンスに置き換えます。

AWS ParallelCluster はキャパシティブロックに関連付けられた静的ノードを異なる方法で管理します。CB がまだアクティブでなくてもクラスターを作成し、CB がアクティブになるとインスタンスを自動的に起動します。

まだアクティブでない CBs に関連付けられたコンピューティングリソースに対応するSlurmノードは、CB 開始時刻に達するまでメンテナンス状態のままになります。これらのSlurmノードは、Slurm管理者ユーザーに関連付けられた予約/メンテナンス状態のままです。つまり、ジョブを受け入れることができますが、Slurm予約が削除されるまでジョブは保留中のままです。

`clustermgtd` は自動的にSlurm予約を作成または削除します。これにより、関連する CB ノードが CB 状態に基づいてメンテナンス状態になります。CB がアクティブになると、Slurm予約が削除され、ノードは開始され、保留中のジョブまたは新しいジョブ送信で使用可能になります。

CB 終了時刻に達すると、ノードは予約/メンテナンス状態に戻ります。CB がアクティブでなくなり、インスタンスが終了したときに、ジョブを新しいキュー/コンピューティングリソースに再送信/再クエリするかどうかは、ユーザー次第です。

## `clusterstatusmgtd`
<a name="clusterstatusmgtd-v3"></a>

クラスターステータス管理デーモン (`clusterstatusmgtd`) は、コンピューティングフリートのステータス更新を管理します。DynamoDB テーブルに保存されているフリートのステータスを毎分取得し、すべての STOP/START リクエストを管理します。

## `computemgtd`
<a name="computemgtd-v3"></a>

コンピューティング管理デーモン (`computemgtd`) プロセスは、各クラスターコンピューティングノードで実行されます。5 分ごとに、コンピューティング管理デーモンはヘッドノードに到達できること、および正常であることを確認します。5 分が経過し、ヘッドノードに到達できない、または正常でない場合、コンピューティングノードはシャットダウンされます。