AWS ParallelCluster Prozesse - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS ParallelCluster Prozesse

Dieser Abschnitt bezieht sich auf Cluster, die mit bereitgestellt werdenSlurm. Wenn es mit diesem Scheduler verwendet wird, AWS ParallelCluster interagiert es mit dem zugrunde liegenden Job-Scheduler, um die Bereitstellung und Entfernung von Rechenknoten zu verwalten.

Bei HPC-Clustern, die auf basieren, ist auf die Funktionen AWS ParallelCluster angewiesen AWS Batch, die von zur Verwaltung von AWS Batch Rechenknoten bereitgestellt werden.

clustermgtd

Der Cluster-Management-Daemon (clustermgtd) führt die folgenden Aufgaben aus:

  • Bereinigen Sie inaktive Partitionen

  • Verwalten Sie Slurm Reservierungen und Knoten, die mit Kapazitätsblöcken verknüpft sind (siehe den folgenden Abschnitt)

  • Verwalten Sie die statische Kapazität, um sicherzustellen, dass sie immer verfügbar und funktionsfähig ist

  • Synchronisieren Sie den Scheduler mit Amazon EC2.

  • Bereinigen Sie verwaiste Instanzen

  • Stellen Sie den Status des Scheduler-Knotens bei einer Amazon EC2-Kündigung wieder her, die außerhalb des Suspend-Workflows erfolgt

  • Verwaltung fehlerhafter Amazon EC2 EC2-Instances (solche, die die Amazon EC2 EC2-Zustandsprüfungen nicht bestehen)

  • Geplante Wartungsereignisse verwalten

  • Verwalten Sie fehlerhafte Scheduler-Knoten (solche, die die Zustandsprüfungen des Schedulers nicht bestehen)

Verwaltung von Slurm Reservierungen und Knoten, die mit Kapazitätsblöcken verknüpft sind

ParallelCluster unterstützt On-Demand-Kapazitätsreservierungen (ODCR) und Kapazitätsblöcke für Machine Learning (CB). Im Gegensatz zu ODCR kann CB eine future Startzeit haben und ist zeitgebunden.

clustermgtdsucht in einer Schleife nach fehlerhaften Knoten, beendet alle ausgefallenen Amazon EC2 EC2-Instances und ersetzt sie durch neue Instances, wenn es sich um statische Knoten handelt.

AWS ParallelCluster verwaltet statische Knoten, die Kapazitätsblöcken zugeordnet sind, unterschiedlich — es erstellt einen Cluster, auch wenn der CB noch nicht aktiv ist, und startet automatisch Instances, sobald der CB aktiv ist.

Die Slurm Knoten, die den Rechenressourcen entsprechen CBs , die mit diesen verknüpft sind und die noch nicht aktiv sind, werden solange im Wartungsstatus belassen, bis die CB-Startzeit erreicht ist. Diese Slurm Knoten verbleiben in einem reservation/maintenance Status, der dem Slurm Admin-Benutzer zugeordnet ist, was bedeutet, dass sie Jobs annehmen können, aber die Jobs bleiben ausstehend, bis die Slurm Reservierung entfernt wird.

clustermgtderstellt oder löscht automatisch Slurm Reservierungen — es versetzt die zugehörigen CB-Knoten in einen Wartungsstatus, der auf dem CB-Status basiert. Wenn der CB aktiv wird, wird die Slurm Reservierung entfernt, die Knoten werden gestartet und stehen für die ausstehenden Jobs oder für die Einreichung neuer Jobs zur Verfügung.

Wenn die CB-Endzeit erreicht ist, werden die Knoten wieder in einen reservation/maintenance Zustand versetzt. Es liegt an den Benutzern, resubmit/requeue die Jobs einer neuen queue/compute Ressource zuzuweisen, wenn der CB nicht mehr aktiv ist und Instances beendet werden.

clusterstatusmgtd

Der Cluster-Statusmanagement-Daemon (clusterstatusmgtd) verwaltet die Statusaktualisierung der Compute-Flotte. Jede Minute ruft es den in einer DynamoDB-Tabelle gespeicherten Flottenstatus ab und verwaltet alle Anfragen. STOP/START

computemgtd

Die Compute Management Daemon (computemgtd) -Prozesse werden auf jedem der Cluster-Rechenknoten ausgeführt. Alle fünf (5) Minuten bestätigt der Compute-Management-Daemon, dass der Hauptknoten erreicht werden kann und fehlerfrei ist. Wenn fünf (5) Minuten vergehen, in denen der Hauptknoten nicht erreicht werden kann oder nicht fehlerfrei ist, wird der Rechenknoten heruntergefahren.