Konfiguration benutzerdefinierter Slurm-Einstellungen in PCS AWS - AWS PCS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Konfiguration benutzerdefinierter Slurm-Einstellungen in PCS AWS

Verwenden Sie benutzerdefinierte Slurm-Einstellungen, um zusätzliche Slurm-Parameter für Cluster-, Queue- und Compute Node Group-Ressourcen zu konfigurieren. Diese Version bietet Unterstützung für Slurm-Einstellungen für Queue-Ressourcen und bietet so eine detaillierte Kontrolle über partitionsspezifisches Verhalten.

Vorteile benutzerdefinierter Slurm-Einstellungen

Benutzerdefinierte Slurm-Einstellungen bieten eine ausgefeilte Kontrolle über Ihre AWS PC-basierte HPC-Umgebung. Sie können eine detaillierte Abrechnung implementieren, Zugriffskontrollen durchsetzen und die Workload-Ausführung mithilfe von quality-of-service Konfigurationen und Präemptionsrichtlinien optimieren. Diese Funktionen stellen sicher, dass wichtige Aufgaben die erforderlichen Ressourcen erhalten und gleichzeitig eine effiziente Clusterauslastung gewährleistet wird. Ganz gleich, ob Sie GPU-beschleunigte Workloads verwalten, eine faire Planung implementieren oder die Lebenszyklen von Jobs kontrollieren — benutzerdefinierte Einstellungen helfen Ihnen dabei, Ihre HPC-Infrastruktur an den betrieblichen Anforderungen und Forschungszielen auszurichten.

Konfiguration benutzerdefinierter Einstellungen

Benutzerdefinierte Slurm-Einstellungen können über die AWS Konsole, CLI oder SDKs während der Ressourcenerstellung konfiguriert oder später durch Aktualisierungsvorgänge geändert werden.

AWS Management Console

Navigieren Sie auf der Erstellungs- oder Bearbeitungsseite für einen beliebigen Ressourcentyp (Cluster, Warteschlange oder Rechenknotengruppe) zu Zusätzliche Scheduler-Einstellungen.

Um eine neue Einstellung hinzuzufügen
  1. Wählen Sie Neue Einstellung hinzufügen.

  2. Wählen Sie einen Parameternamen aus der Dropdownliste aus (die kurze Parameterbeschreibungen enthält).

  3. Geben Sie den entsprechenden Wert ein.

Um eine benutzerdefinierte Einstellung rückgängig zu machen
  1. Wählen Sie neben dem entsprechenden parameter/value Paar die Option Entfernen aus.

  2. Erstellen oder aktualisieren Sie die Ressource.

AWS CLI

Verwenden Sie das SlurmCustomSettings Feld für die programmatische Verwaltung benutzerdefinierter Einstellungen bei Erstellungs- oder Aktualisierungsvorgängen.

Beispiel — Aktualisierung des Prolog Parameters auf einem Cluster
aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
Beispiel — Einstellung einer Warteschlange als Teil Default eines Clusters
aws pcs update-queue \ --cluster-identifier my-cluster \ --queue-identifier my-queue \ --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
Beispiel — Benutzerdefiniert Features für eine Compute-Knotengruppe einrichten
aws pcs update-compute-node-group \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-cng-1 \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

Validierung und Fehlerbehandlung

AWS PCS implementiert einen mehrstufigen Validierungsprozess für benutzerdefinierte Slurm-Einstellungen. Sowohl bei der Erstellung als auch bei der Aktualisierung führen wir synchrone Validierungen durch, die Folgendes beinhalten:

  • Prüfungen auf Feldebene: Wir überprüfen einzelne Einstellungen auf korrekte Datentypen, zulässige Werte und Formatanforderungen. Beispielsweise stellen wir sicher, dass Zeitwerte das richtige Slurm-Format haben und boolesche Werte akzeptierte boolesche Slurm-Repräsentationen verwenden.

  • Kontextsensitive Validierungen: Einige Einstellungen werden anhand des umfassenderen Konfigurationskontextes überprüft. Beispielsweise sind bestimmte Parameter nur gültig, wenn die Slurm-Buchhaltung aktiviert ist.

  • Konsistenz zwischen den Einstellungen: Wir stellen sicher, dass Optionen, die sich gegenseitig ausschließen, nicht zusammen festgelegt werden und dass die voneinander abhängigen Einstellungen korrekt konfiguriert sind.

Wenn die Überprüfung fehlschlägt, erhalten Sie eine ValidationException mit einem bestimmten Fehlercode (z. B. InvalidInput), einer eindeutigen Fehlermeldung, die das Problem beschreibt, und einer Liste der ungültigen Felder und ihrer jeweiligen Fehlerdetails.

Während dieser ersten Überprüfung werden zwar viele Probleme erkannt, einige komplexe Interaktionen zwischen den Einstellungen werden jedoch möglicherweise erst sichtbar, wenn die Konfiguration angewendet wird. In solchen Fällen schlägt der Vorgang mit einer informativen Fehlermeldung fehl, und alle teilweisen Änderungen werden rückgängig gemacht.

Einschränkungen

AWS PCS implementiert zum Schutz der Servicesicherheit und der Betriebsstabilität einen Ansatz mit Zulassungslisten. Einstellungen, die die Sicherheit von Dienstkonten gefährden oder die Funktionen der verwalteten Dienste beeinträchtigen könnten, sind eingeschränkt. Wir evaluieren jedoch kontinuierlich die Kundenbedürfnisse und können auf der Grundlage von Kundenfeedback Unterstützung für weitere Einstellungen hinzufügen.