Behebung von Problemen mit dem Slurm-CLI-Filter-Plugin in AWS PCS - AWS PCS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Behebung von Problemen mit dem Slurm-CLI-Filter-Plugin in AWS PCS

Verwenden Sie diese Informationen zur Fehlerbehebung, um häufig auftretende Probleme mit dem CLI-Filter-Plugin zu beheben.

Die Jobübermittlung schlägt sofort mit einem Fehler beim Laden des Plugins fehl

Symptome: Benutzer erhalten beim Senden von Jobs Fehlermeldungen über das fehlende oder ausgefallene CLI-Filter-Plugin.

Mögliche Ursachen:

  • Das CLI-Filter-Plugin-Skript fehlt auf einem oder mehreren Knoten

  • Falscher Skriptdateiname (muss exakt seincli_filter.lua)

  • Das Skript wurde im falschen Verzeichnispfad bereitgestellt

  • Das Skript hat falsche Dateiberechtigungen

Auflösung

  • Stellen Sie sicher, dass das Skript /etc/aws/pcs/scheduler/slurm-<version>/cli_filter.lua auf allen Anmelde- und Rechenknoten vorhanden ist

  • Überprüfen Sie, ob der Dateiname des Skripts exakt ist cli_filter.lua

  • Stellen Sie sicher, dass das Skript über lesbare Berechtigungen verfügt (644 oder ähnlich)

  • Testen Sie die Skriptbereitstellung auf einem einzelnen Anmeldeknoten, bevor Sie sie im vollständigen Cluster bereitstellen

Die Clustererstellung schlägt mit einem Validierungsfehler für das CLI Filter Plugin fehl

Symptome: Die Clustererstellung schlägt fehl und es wird ein Fehler wegen eines ungültigen CliFilterPlugins Parameters angezeigt.

Mögliche Ursachen:

  • Falsches Parameterwertformat in slurmCustomSettings

  • Tippfehler im Parameternamen oder -wert

Auflösung

  • Verwenden Sie den exakten Parameternamen: CliFilterPlugins

  • Verwenden Sie den exakten Parameterwert: cli_filter/lua

  • Überprüfen Sie die JSON-Syntax im slurmCustomSettings Array

Das CLI-Filter-Plugin-Skript wird ausgeführt, aber die Jobvalidierung funktioniert nicht wie erwartet

Symptome: Jobs werden erfolgreich gesendet, aber die benutzerdefinierte Validierungslogik wird nicht ausgelöst oder führt zu unerwarteten Ergebnissen.

Mögliche Ursachen:

  • Syntaxfehler im Lua-Skript

  • Falsche Feldzugriffsmuster (Verwendung der Job Submit Plugin-Syntax anstelle des CLI Filter Plug-ins)

  • Logikfehler in den Validierungsbedingungen

Auflösung

  • Überprüfen Sie das Lua-Skript auf Syntaxfehler

  • Stellen Sie sicher, dass der Feldzugriff das options["field_name"] Format anstelle von verwendet job_desc.field_name

  • Fügen Sie Protokollierungsanweisungen zum Ausführungsablauf des Debug-Skripts hinzu

  • Testen Sie zunächst die Skriptlogik mit einfachen Validierungsfällen

Die Bereitstellung von S3-Skripten schlägt

Symptome: Instanzen werden gestartet, aber das CLI-Filter-Plugin-Skript wird nicht von S3 heruntergeladen.

Mögliche Ursachen:

  • Dem IAM-Instanzprofil fehlen S3-Leseberechtigungen

  • S3-VPC-Endpunkt nicht konfiguriert

  • Falscher S3-Bucket- oder Objektpfad in den Benutzerdaten

Auflösung

  • Stellen Sie sicher, dass das IAM-Instanzprofil über die s3:GetObject Berechtigung für Ihren Bucket verfügt

  • Konfigurieren Sie den S3 VPC-Gateway-Endpunkt für den direkten Zugriff

  • Überprüfen Sie den S3-Bucket-Namen und den Objektpfad im Benutzerdatenskript

  • Überprüfen Sie die Benutzerdatenprotokolle der Instanz auf Fehler beim Herunterladen von S3