AWS ParallelCluster Prozesse - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS ParallelCluster Prozesse

Dieser Abschnitt bezieht sich auf Cluster, die mit bereitgestellt werden Slurm. Wenn es mit diesem Scheduler verwendet wird, AWS ParallelCluster interagiert es mit dem zugrunde liegenden Job-Scheduler, um die Bereitstellung und Entfernung von Rechenknoten zu verwalten.

Bei HPC-Clustern, die auf basieren, ist auf die Funktionen AWS ParallelCluster angewiesen AWS Batch, die von zur Verwaltung von AWS Batch Rechenknoten bereitgestellt werden.

clustermgtd

Der Cluster-Management-Daemon (clustermgtd) führt die folgenden Aufgaben aus:

  • Bereinigen Sie inaktive Partitionen

  • Verwalten Slurm Reservierungen und Knoten, die mit Kapazitätsblöcken verknüpft sind (siehe den folgenden Abschnitt)

  • Verwalten Sie die statische Kapazität, um sicherzustellen, dass sie immer verfügbar und funktionsfähig ist

  • Synchronisieren Sie den Scheduler mit Amazon EC2.

  • Bereinigen Sie verwaiste Instanzen

  • Stellen Sie den Status des Scheduler-Knotens bei einer EC2 Kündigung durch Amazon wieder her, die außerhalb des Suspend-Workflows erfolgt

  • Verwaltung fehlerhafter EC2 Amazon-Instances (solche, die die EC2 Amazon-Gesundheitschecks nicht bestehen)

  • Geplante Wartungsereignisse verwalten

  • Verwalten Sie fehlerhafte Scheduler-Knoten (solche, die die Zustandsprüfungen des Schedulers nicht bestehen)

Verwaltung von Slurm Reservierungen und Knoten, die mit Kapazitätsblöcken verknüpft sind

ParallelCluster unterstützt On-Demand-Kapazitätsreservierungen (ODCR) und Kapazitätsblöcke für Machine Learning (CB). Im Gegensatz zu ODCR kann CB eine future Startzeit haben und ist zeitgebunden.

clustermgtdsucht in einer Schleife nach fehlerhaften Knoten, beendet alle ausgefallenen EC2 Amazon-Instances und ersetzt sie durch neue Instances, wenn es sich um statische Knoten handelt.

AWS ParallelCluster verwaltet statische Knoten, die Kapazitätsblöcken zugeordnet sind, unterschiedlich — es erstellt einen Cluster, auch wenn der CB noch nicht aktiv ist, und startet automatisch Instances, sobald der CB aktiv ist.

Das Tool Slurm Knoten, die Rechenressourcen entsprechen, denen zugeordnet sind CBs , die noch nicht aktiv sind, bleiben im Wartungsstatus, bis die CB-Startzeit erreicht ist. Diese Slurm Knoten befinden sich weiterhin in einem Reservierungs-/Wartungszustand, der mit dem verknüpft ist Slurm Admin-Benutzer, was bedeutet, dass sie Jobs annehmen können, aber die Jobs bleiben ausstehend, bis Slurm Die Reservierung wurde entfernt.

clustermgtderstellt oder löscht automatisch Slurm Reservierungen — Es versetzt die zugehörigen CB-Knoten in einen Wartungszustand, der auf dem CB-Status basiert. Wenn der CB aktiv wird, Slurm Die Reservierung wird aufgehoben, die Knoten werden gestartet und stehen für die ausstehenden Jobs oder für die Einreichung neuer Jobs zur Verfügung.

Wenn die CB-Endzeit erreicht ist, werden die Knoten zurück zu einer reservation/maintenance state. It's up to users to resubmit/requeue the jobs to a new queue/compute Ressource verschoben, wenn die CB nicht mehr aktiv ist, und die Instances werden beendet.

clusterstatusmgtd

Der Cluster-Statusmanagement-Daemon (clusterstatusmgtd) verwaltet die Statusaktualisierung der Compute-Flotte. Jede Minute ruft es den in einer DynamoDB-Tabelle gespeicherten Flottenstatus ab und verwaltet alle STOP/START-Anfragen.

computemgtd

Die Compute Management Daemon (computemgtd) -Prozesse werden auf jedem der Cluster-Rechenknoten ausgeführt. Alle fünf (5) Minuten bestätigt der Compute-Management-Daemon, dass der Hauptknoten erreicht werden kann und fehlerfrei ist. Wenn fünf (5) Minuten vergehen, in denen der Hauptknoten nicht erreicht werden kann oder nicht fehlerfrei ist, wird der Rechenknoten heruntergefahren.