Scheduling-Eigenschaften AwsBatchQueues SlurmQueues SlurmSettings

`Scheduling` Abschnitt

(Erforderlich) Definiert den Job Scheduler, der im Cluster verwendet wird, und die Recheninstanzen, die der Job Scheduler verwaltet. Sie können entweder den Slurm oder AWS Batch -Scheduler verwenden. Jeder unterstützt einen anderen Satz von Einstellungen und Eigenschaften.


Scheduling:
  Scheduler: slurm
  ScalingStrategy: string    
  SlurmSettings:
    MungeKeySecretArn: string        
    ScaledownIdletime: integer    
    QueueUpdateStrategy: string
    EnableMemoryBasedScheduling: boolean
    CustomSlurmSettings: [dict]
    CustomSlurmSettingsIncludeFile: string
    Database:
      Uri: string
      UserName: string
      PasswordSecretArn: string
      DatabaseName: string    
    ExternalSlurmdbd: boolean
      Host: string
      Port: integer  
    Dns:
      DisableManagedDns: boolean
      HostedZoneId: string
      UseEc2Hostnames: boolean  
  SlurmQueues:
    - Name: string  
      ComputeSettings:
        LocalStorage:
          RootVolume:
            Size: integer
            Encrypted: boolean
            VolumeType: string
            Iops: integer
            Throughput: integer
          EphemeralVolume:
            MountDir: string
      CapacityReservationTarget:
        CapacityReservationId: string
        CapacityReservationResourceGroupArn: string
      CapacityType: string
      AllocationStrategy: string
      JobExclusiveAllocation: boolean
      CustomSlurmSettings: dict
      Tags:
        - Key: string
          Value: string
      HealthChecks:
        Gpu:
          Enabled: boolean
      Networking:
        SubnetIds:
          - string
        AssignPublicIp: boolean
        SecurityGroups:
          - string
        AdditionalSecurityGroups:
          - string
        PlacementGroup:
          Enabled: boolean
          Id: string
          Name: string
        Proxy:
          HttpProxyAddress: string
      ComputeResources:
        - Name: string
          InstanceType: string
          Instances:
            - InstanceType: string
          MinCount: integer
          MaxCount: integer
          DynamicNodePriority: integer
          StaticNodePriority: integer
          SpotPrice: float
          DisableSimultaneousMultithreading: boolean
          SchedulableMemory: integer
          HealthChecks:
            Gpu:
              Enabled: boolean
          Efa:
            Enabled: boolean
            GdrSupport: boolean          
          CapacityReservationTarget:
            CapacityReservationId: string
            CapacityReservationResourceGroupArn: string
          Networking:   
            PlacementGroup:
              Enabled: boolean
              Name: string
          CustomSlurmSettings: dict
          Tags:
            - Key: string
              Value: string      
      CustomActions:
        OnNodeStart:
          Sequence:
            - Script: string
              Args:
                - string
          Script: string
          Args:
            - string
        OnNodeConfigured:
          Sequence:
            - Script: string
              Args:
                - string
          Script: string
          Args:
            - string
      Iam:
        InstanceProfile: string
        InstanceRole: string
        S3Access:
          - BucketName: string
            EnableWriteAccess: boolean
            KeyName: string
        AdditionalIamPolicies:
          - Policy: string
      Image:
        CustomAmi: string


Scheduling:
  Scheduler: awsbatch
  AwsBatchQueues:
    - Name: string
      CapacityType: string
      Networking:
        SubnetIds:
          - string
        AssignPublicIp: boolean
        SecurityGroups:
          - string
        AdditionalSecurityGroups:
          - string
      ComputeResources:  # this maps to a Batch compute environment (initially we support only 1)
        - Name: string
          InstanceTypes:
            - string
          MinvCpus: integer
          DesiredvCpus: integer
          MaxvCpus: integer
          SpotBidPercentage: float

`Scheduling`-Eigenschaften

Scheduler(Erforderlich,String)

Gibt den Typ des verwendeten Schedulers an. Unterstützte Werte sind slurm und awsbatch.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

Anmerkung

awsbatchunterstützt nur das alinux2 Betriebssystem und die x86_64 Plattform.

ScalingStrategy(Fakultativ,String)

Ermöglicht es Ihnen, auszuwählen, wie dynamische Slurm Knoten skaliert werden sollen. Unterstützte Werte sindall-or-nothing, greedy-all-or-nothing und best-effort Der Standardwert istall-or-nothing.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

Die Skalierungsstrategie gilt nur für Knoten, die von Slurm wieder aufgenommen werden sollen, nicht für Knoten, die irgendwann schon laufen.

all-or-nothingDiese Strategie folgt strikt einer all-or-nothing-approach, die darauf abzielt, inaktive Instanzen am Ende des Skalierungsprozesses zu vermeiden. Sie arbeitet auf einer all-or-nothing Basis, was bedeutet, dass sie entweder vollständig oder gar nicht skaliert wird. Beachten Sie, dass aufgrund vorübergehend gestarteter Instances zusätzliche Kosten anfallen können, wenn Jobs mehr als 500 Knoten erfordern oder sich über mehrere Rechenressourcen erstrecken. Diese Strategie hat den niedrigsten Durchsatz unter den drei möglichen Skalierungsstrategien. Die Skalierungszeit hängt von der Anzahl der Jobs ab, die bei der Ausführung des Slurm Resume-Programms eingereicht wurden. Außerdem können Sie nicht weit über das Standardlimit für RunInstances Ressourcenkonten pro Ausführung hinaus skalieren, das standardmäßig bei 1000 Instanzen liegt. Weitere Informationen finden Sie in der Amazon EC2 EC2-API-Throttling-Dokumentation
greedy-all-or-nothing Ähnlich wie bei der all-or-nothing Strategie zielt sie darauf ab, inaktive Instances nach der Skalierung zu vermeiden. Diese Strategie ermöglicht eine vorübergehende Überskalierung während des Skalierungsprozesses, um einen höheren Durchsatz als bei der all-or-nothing Methode zu erreichen, hat aber auch dasselbe Skalierungslimit von 1000 Instanzen wie beim RunInstances Ressourcenkontolimit.
best-effort Bei dieser Strategie wird ein hoher Durchsatz priorisiert, auch wenn dies bedeutet, dass einige Instanzen am Ende des Skalierungsprozesses möglicherweise inaktiv sind. Es wird versucht, so viele Knoten zuzuweisen, wie von den Jobs angefordert werden, aber es besteht die Möglichkeit, dass nicht die gesamte Anfrage erfüllt wird. Im Gegensatz zu den anderen Strategien können beim Best-Effort-Ansatz mehr Instanzen als das RunInstances Standardlimit akkumuliert werden, allerdings auf Kosten ungenutzter Ressourcen während der Ausführung mehrerer Skalierungsprozesse.

Jede Strategie ist so konzipiert, dass sie unterschiedlichen Skalierungsanforderungen gerecht wird, sodass Sie eine auswählen können, die Ihren spezifischen Anforderungen und Einschränkungen entspricht.

`AwsBatchQueues`

(Optional) Die AWS Batch Warteschlangeneinstellungen. Es wird nur eine Warteschlange unterstützt. Wenn auf gesetzt Scheduleristawsbatch, ist dieser Abschnitt erforderlich. Weitere Informationen zum awsbatch Scheduler finden Sie unter Netzwerkkonfiguration undVerwenden des AWS Batch (awsbatch) -Schedulers mit AWS ParallelCluster.


AwsBatchQueues:
  - Name: string
    CapacityType: string
    Networking:
      SubnetIds:
        - string
      AssignPublicIp: boolean
      SecurityGroups:
        - string
      AdditionalSecurityGroups:
        - string
    ComputeResources:  # this maps to a Batch compute environment (initially we support only 1)
      - Name: string
        InstanceTypes:
          - string
        MinvCpus: integer
        DesiredvCpus: integer
        MaxvCpus: integer
        SpotBidPercentage: float

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

`AwsBatchQueues`-Eigenschaften

Name(Erforderlich,String)

Der Name der AWS Batch Warteschlange.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

CapacityType(Fakultativ,String)

Der Typ der Rechenressourcen, die die AWS Batch Warteschlange verwendet. Unterstützte Werte sindONDEMAND, SPOT oderCAPACITY_BLOCK. Der Standardwert ist ONDEMAND.

Anmerkung

Wenn Sie diese Einstellung CapacityType auf festlegenSPOT, muss Ihr Konto eine AWSServiceRoleForEC2Spot dienstbezogene Rolle enthalten. Sie können diese Rolle mit dem folgenden AWS CLI Befehl erstellen.


$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Weitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon Amazon EC2 EC2-Benutzerhandbuch für Linux-Instances.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

`Networking`

(Erforderlich) Definiert die Netzwerkkonfiguration für die AWS Batch Warteschlange.


Networking:
  SubnetIds:
    - string
  AssignPublicIp: boolean
  SecurityGroups:
    - string
  AdditionalSecurityGroups:
    - string

`Networking`-Eigenschaften

SubnetIds(Erforderlich,[String])

Gibt die ID eines vorhandenen Subnetzes an, in dem die AWS Batch Warteschlange bereitgestellt werden soll. Derzeit wird nur ein Subnetz unterstützt.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

AssignPublicIp(Optional,String)

Erzeugt oder weist den Knoten in der AWS Batch Warteschlange eine öffentliche IP-Adresse zu. Unterstützte Werte sind true und false. Die Standardeinstellung hängt von dem Subnetz ab, das Sie angegeben haben.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

SecurityGroups(Optional,[String])

Liste der Sicherheitsgruppen, die die AWS Batch Warteschlange verwendet. Wenn Sie keine Sicherheitsgruppen angeben, AWS ParallelCluster erstellt neue Sicherheitsgruppen.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

AdditionalSecurityGroups(Optional,[String])

Liste der Sicherheitsgruppen, die die AWS Batch Warteschlange verwendet.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

`ComputeResources`

(Erforderlich) Definiert die ComputeResources Konfiguration für die AWS Batch Warteschlange.


ComputeResources:  # this maps to a Batch compute environment (initially we support only 1)
  - Name: string
    InstanceTypes:
      - string
    MinvCpus: integer
    DesiredvCpus: integer
    MaxvCpus: integer
    SpotBidPercentage: float

`ComputeResources`-Eigenschaften

Name(Erforderlich,String)

Der Name der AWS Batch Warteschlangencomputer-Umgebung.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

InstanceTypes(Erforderlich,[String])

Das Array der Instanztypen für die AWS Batch Rechenumgebung. Alle Instanztypen müssen die x86_64 Architektur verwenden.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

MinvCpus(Fakultativ,Integer)

Die Mindestanzahl VCPUs , die eine AWS Batch Rechenumgebung verwenden kann.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

DesiredVcpus(Optional,Integer)

Die gewünschte Anzahl von VCPUs in der AWS Batch Rechenumgebung. AWS Batch passt diesen Wert zwischen MinvCpus und MaxvCpus basierend auf der Nachfrage in der Auftragswarteschlange an.

Aktualisierungsrichtlinie: Diese Einstellung wird während eines Updates nicht analysiert.

MaxvCpus(Fakultativ,Integer)

Die maximale Anzahl von VCPUs für die AWS Batch Rechenumgebung. Sie können diesen Wert nicht auf einen Wert setzen, der niedriger ist alsDesiredVcpus.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates nicht verringert werden.

SpotBidPercentage(Fakultativ,Float)

Der maximale Prozentsatz des On-Demand-Preises für den Instance-Typ, den ein Amazon EC2-Spot-Instance-Preis erreichen kann, bevor Instances gestartet werden. Der Standardwert ist 100 (100%). Der unterstützte Bereich ist 1 -100.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

`SlurmQueues`

(Optional) Einstellungen für die Slurm Warteschlange. Wenn auf gesetzt Scheduleristslurm, ist dieser Abschnitt erforderlich.


SlurmQueues:
  - Name: string
    ComputeSettings:
      LocalStorage:
        RootVolume:
          Size: integer
          Encrypted: boolean
          VolumeType: string
          Iops: integer
          Throughput: integer
        EphemeralVolume:
          MountDir: string
    CapacityReservationTarget:
      CapacityReservationId: string
      CapacityReservationResourceGroupArn: string
    CapacityType: string
    AllocationStrategy: string
    JobExclusiveAllocation: boolean
    CustomSlurmSettings: dict
    Tags:
      - Key: string
        Value: string
    HealthChecks:
      Gpu:
        Enabled: boolean
    Networking:
      SubnetIds:
        - string
      AssignPublicIp: boolean
      SecurityGroups:
        - string
      AdditionalSecurityGroups:
        - string
      PlacementGroup:
        Enabled: boolean
        Id: string
        Name: string
      Proxy:
        HttpProxyAddress: string
    ComputeResources:
      - Name: string
        InstanceType: string
        Instances:
          - InstanceType: string        
        MinCount: integer
        MaxCount: integer
        DynamicNodePriority: integer
        StaticNodePriority: integer
        SpotPrice: float
        DisableSimultaneousMultithreading: boolean
        SchedulableMemory: integer
        HealthChecks:
          Gpu:
            Enabled: boolean
        Efa:
          Enabled: boolean
          GdrSupport: boolean    
        CapacityReservationTarget:
          CapacityReservationId: string
          CapacityReservationResourceGroupArn: string     
        Networking:   
          PlacementGroup:
            Enabled: boolean
            Name: string
        CustomSlurmSettings: dict
        Tags:
          - Key: string
            Value: string
    CustomActions:
      OnNodeStart:
        Sequence:
          - Script: string
            Args:
              - string
        Script: string
        Args:
          - string
      OnNodeConfigured:
        Sequence:
          - Script: string
            Args:
              - string        
        Script: string
        Args:
          - string
    Iam:
      InstanceProfile: string
      InstanceRole: string
      S3Access:
        - BucketName: string
          EnableWriteAccess: boolean
          KeyName: string
      AdditionalIamPolicies:
        - Policy: string
    Image:
      CustomAmi: string

Richtlinie aktualisieren: Bei dieser Einstellung für Listenwerte kann während eines Updates ein neuer Wert hinzugefügt werden, oder die Rechenflotte muss gestoppt werden, wenn ein vorhandener Wert entfernt wird.

`SlurmQueues`-Eigenschaften

Name(Erforderlich,String)

Der Name der Slurm Warteschlange.

Anmerkung

Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

CapacityReservationTarget

Anmerkung

CapacityReservationTargetwird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.


CapacityReservationTarget:
   CapacityReservationId: string
   CapacityReservationResourceGroupArn: string

Gibt die On-Demand-Kapazitätsreservierung für die Rechenressourcen der Warteschlange an.

CapacityReservationId(Optional,String)

Die ID der vorhandenen Kapazitätsreservierung, die für die Rechenressourcen der Warteschlange als Ziel verwendet werden soll. Die ID kann sich auf ein ODCR oder einen Kapazitätsblock für ML beziehen.

Die Reservierung muss dieselbe Plattform verwenden, die die Instanz verwendet. Wenn Ihre Instances beispielsweise ausgeführt werdenrhel8, muss Ihre Kapazitätsreservierung auf der Red Hat Enterprise Linux-Plattform laufen. Weitere Informationen finden Sie unter Unterstützte Plattformen im Amazon-EC2-Benutzerhandbuch für Linux-Instances.

Anmerkung

Wenn Sie diese Einstellung Instancesin die Cluster-Konfiguration einbeziehen, müssen Sie diese CapacityReservationId Einstellung für die Warteschlangenebene aus der Konfiguration ausschließen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

CapacityReservationResourceGroupArn(Optional,String)

Der Amazon-Ressourcenname (ARN) der Ressourcengruppe, die als serviceverknüpfte Gruppe von Kapazitätsreservierungen für die Rechenressourcen der Warteschlange dient. AWS ParallelCluster identifiziert und verwendet die am besten geeignete Kapazitätsreservierung aus der Ressourcengruppe auf der Grundlage der folgenden Bedingungen:

Wenn in SlurmQueues/Networkingoder SlurmQueues//aktiviert PlacementGroup ist Networking, wird eine Ressourcengruppe AWS ParallelCluster ausgewählt, die auf den Instanztyp abzielt, und PlacementGroup für eine Rechenressource, falls die Rechenressource vorhanden ist. ComputeResources

Das PlacementGroup muss auf einen der Instanztypen abzielen, der in definiert ist ComputeResources.
Wenn es in SlurmQueues/Networkingoder SlurmQueues//PlacementGroupnicht aktiviert ist Networking, AWS ParallelCluster wird eine Ressourcengruppe ausgewählt, die nur auf den Instanztyp einer Rechenressource abzielt, sofern die Rechenressource existiert. ComputeResources

Die Ressourcengruppe muss mindestens einen ODCR für jeden Instanztyp haben, der in einer Availability Zone für alle Rechenressourcen und Availability Zones der Warteschlange reserviert ist. Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).

Weitere Informationen zu den Konfigurationsanforderungen für mehrere Subnetze finden Sie unter Networking/. SubnetIds

Anmerkung

In AWS ParallelCluster Version 3.4.0 wurden mehrere Availability Zones hinzugefügt.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

CapacityType(Fakultativ,String)

Der Typ der Rechenressourcen, die die Slurm Warteschlange verwendet. Unterstützte Werte sindONDEMAND, SPOT oderCAPACITY_BLOCK. Der Standardwert ist ONDEMAND.

Anmerkung

Wenn Sie das CapacityType auf setzenSPOT, muss Ihr Konto über eine AWSServiceRoleForEC2Spot dienstbezogene Rolle verfügen. Sie können den folgenden AWS CLI Befehl verwenden, um diese Rolle zu erstellen.


$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Weitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon Amazon EC2 EC2-Benutzerhandbuch für Linux-Instances.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

AllocationStrategy(Optional,) String

Geben Sie die Zuweisungsstrategie für alle Rechenressourcen an, die in definiert sind Instances.

Zulässige Werte: lowest-price | capacity-optimized | price-capacity-optimized | prioritized | capacity-optimized-prioritized

CapacityType	Zulässige Strategien
AUF ABRUF	niedrigster Preis, priorisiert
STELLE	niedrigster Preis, kapazitätsoptimiert, price-capacity-optimized capacity-optimized-prioritized
CAPACITY_BLOCK	Nicht unterstützt — AllocationStrategy kann nicht konfiguriert werden

Standard: lowest-price

lowest-price

Wenn Sie verwendenCapacityType = ONDEMAND, verwendet Amazon EC2 Fleet den Preis, um die Bestellung zu bestimmen, und startet zuerst die Instances mit dem niedrigsten Preis.
Wenn Sie verwendenCapacityType = SPOT, startet Amazon EC2 Fleet Instances aus dem Spot-Instance-Pool mit dem niedrigsten Preis, der über verfügbare Kapazität verfügt. Wenn die Kapazität eines Pools knapp wird, bevor er Ihre erforderliche Kapazität erreicht, erfüllt Amazon EC2 Fleet Ihre Anfrage, indem es Instances für Sie startet. Insbesondere startet Amazon EC2 Fleet Instances aus dem Spot-Instance-Pool mit dem niedrigsten Preis, der über verfügbare Kapazität verfügt. Amazon EC2 Fleet kann Spot-Instances aus mehreren verschiedenen Pools starten.
Wenn Sie festlegenCapacityType = CAPACITY_BLOCK, gibt es keine Zuweisungsstrategien, daher kann der AllocationStrategy Parameter nicht konfiguriert werden.

capacity-optimized

Wenn Sie festlegenCapacityType = ONDEMAND, capacity-optimized ist es nicht verfügbar.
Wenn Sie diese Option festlegenCapacityType = SPOT, startet Amazon EC2 Fleet Instances aus Spot-Instance-Pools mit optimaler Kapazität für die Anzahl der zu startenden Instances.

price-capacity-optimized

Wenn Sie festlegenCapacityType = ONDEMAND, capacity-optimized ist es nicht verfügbar.
Wenn Sie diese Option festlegenCapacityType = SPOT, identifiziert Amazon EC2 Fleet die Pools mit der höchsten Kapazitätsverfügbarkeit für die Anzahl der Instances, die gestartet werden. Das bedeutet, dass wir Spot Instances aus den Pools anfordern werden, von denen wir glauben, dass die Wahrscheinlichkeit einer kurzfristigen Unterbrechung am geringsten ist. Amazon EC2 Fleet fordert dann Spot-Instances aus den Pools mit dem niedrigsten Preis an.

prioritized

Wenn Sie diese Option festlegenCapacityType = ONDEMAND, beachtet Amazon EC2 Fleet die Prioritätsreihenfolge, die AWS ParallelCluster für die LaunchTemplate Überschreibungen gilt, wenn mehrere Subnetze angegeben sind. AWS ParallelCluster leitet die Überschreibung priority von der Position des Zielsubnetzes ab, SlurmQueues/Networking/SubnetIds wobei das erste Subnetz die höchste Priorität erhält. Die Prioritäten werden AWS ParallelCluster in absteigender Reihenfolge von festgelegtSlurmQueues/Networking/SubnetIds, SubnetId wobei die erste Subnetz-ID die höchste Priorität und die letzte Subnetz-ID die niedrigste Priorität hat.
Wenn Sie festlegen, ist es nicht CapacityType = SPOT verfügbarprioritized.

capacity-optimized-prioritized

Wenn du es eingestellt hastCapacityType = ONDEMAND, capacity-optimized-prioritized ist es nicht verfügbar.
Wenn Sie diese Option festlegenCapacityType = SPOT, optimiert Amazon EC2 Fleet zuerst die Kapazität und wendet dann nach bestem Wissen die Prioritätsreihenfolge an, die den Überschreibungen AWS ParallelCluster zugewiesen wird. LaunchTemplate Die Prioritäten werden AWS ParallelCluster in absteigender Reihenfolge von festgelegtSlurmQueues/Networking/SubnetIds, SubnetId wobei die erste SubnetID die höchste Priorität und die letzte SubnetID die niedrigste Priorität hat. Alle Overrides, die auf dasselbe Subnetz abzielen, erhalten denselben Prioritätswert.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

AllocationStrategywird ab AWS ParallelCluster Version 3.3.0 unterstützt.

Neu in 3.14.0: prioritized (für On-Demand) und capacity-optimized-prioritized (für Spot).

JobExclusiveAllocation(Fakultativ,) String

Wenn auf gesetzttrue, ist das Slurm OverSubscribe Partitionsflag auf gesetztEXCLUSIVE. Bei OverSubscribe = EXCLUSIVE haben Jobs in der Partition exklusiven Zugriff auf alle zugewiesenen Knoten. Weitere Informationen finden Sie unter EXCLUSIVE in der Slurm Dokumentation.

Zulässige Werte: true | false

Standard: false

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

JobExclusiveAllocationwird ab AWS ParallelCluster Version 3.7.0 unterstützt.

CustomSlurmSettings(Fakultativ,Dict)

Definiert die Konfigurationseinstellungen für die benutzerdefinierte Slurm Partition (Warteschlange).

Gibt ein Wörterbuch mit Schlüssel-Wert-Paaren für benutzerdefinierte Slurm Konfigurationsparameter an, die für Warteschlangen (Partitionen) gelten.

Jedes einzelne Schlüssel-Wert-Paar, z. B.Param1: Value1, wird separat am Ende der Slurm Partitionskonfigurationszeile im Format hinzugefügt. Param1=Value1

Sie können nur Slurm Konfigurationsparameter angeben, die nicht auf der Sperrliste stehen. CustomSlurmSettings Hinweise zu Slurm Konfigurationsparametern auf der Sperrliste finden Sie unter. Auf der Denim-Liste Slurm Konfigurationsparameter für CustomSlurmSettings

AWS ParallelCluster prüft nur, ob ein Parameter auf einer Sperrliste steht. AWS ParallelCluster validiert die Syntax oder Semantik Ihrer benutzerdefinierten Slurm Konfigurationsparameter nicht. Es liegt in Ihrer Verantwortung, Ihre benutzerdefinierten Slurm Konfigurationsparameter zu validieren. Ungültige benutzerdefinierte Slurm Konfigurationsparameter können zu Slurm Daemon-Ausfällen führen, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.

Weitere Hinweise zum Angeben von benutzerdefinierten Slurm Konfigurationsparametern mit finden Sie AWS ParallelCluster unterSlurm Anpassung der Konfiguration.

Weitere Informationen zu Slurm Konfigurationsparametern finden Sie in der Dokumentation unter slurm.conf. Slurm

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster

Tags(Optional, [Zeichenfolge])

Eine Liste von Tag-Schlüssel-Wert-Paaren. ComputeResourceTags überschreiben doppelte Tags, die in Tags Abschnitt oder inSlurmQueues/angegeben sind. Tags

Key(Optional,String): Der Tag-Schlüssel.
Value(Fakultativ,String): Der Tag-Wert.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

HealthChecks(Fakultativ)

Geben Sie Integritätsprüfungen für Rechenknoten für alle Rechenressourcen in der Warteschlange an.

Gpu(Fakultativ)

Geben Sie GPU-Zustandsprüfungen für alle Rechenressourcen in einer Warteschlange an.

Anmerkung

AWS ParallelCluster unterstütztHealthChecks/nicht Gpu in Knoten, die alinux2 ARM-Betriebssysteme verwenden. Diese Plattformen unterstützen den NVIDIA Data Center GPU Manager (DCGM) nicht.

Es wird davon abgeraten, GPU-Zustandsprüfungen zu aktivieren, wenn Instance-Typen verwendet werden, deren gesamte GPU-Speichergröße höher als 327680 MiB ist.

EnabledBoolean(Optional,): Gibt an AWS ParallelCluster , ob GPU-Zustandsprüfungen auf Rechenknoten durchgeführt werden. Der Standardwert ist false.

`Gpu`Verhalten bei der Integritätsprüfung

FallsGpu/auf gesetzt Enabled isttrue, werden AWS ParallelCluster GPU-Integritätsprüfungen für Rechenressourcen in der Warteschlange durchgeführt.
Bei der Gpu Integritätsprüfung werden GPU-Integritätsprüfungen für Rechenressourcen durchgeführt, um zu verhindern, dass Jobs auf Knoten mit einer herabgesetzten GPU gesendet werden.
Wenn ein Rechenknoten eine Gpu Zustandsprüfung nicht besteht, ändert sich der Status des Rechenknotens aufDRAIN. Neue Jobs werden auf diesem Knoten nicht gestartet. Bestehende Jobs werden bis zum Abschluss ausgeführt. Wenn alle laufenden Jobs abgeschlossen sind, wird der Rechenknoten beendet, wenn es sich um einen dynamischen Knoten handelt, und er wird ersetzt, wenn es sich um einen statischen Knoten handelt.
Die Dauer der Gpu Zustandsprüfung hängt vom ausgewählten Instanztyp, der Anzahl der GPUs Instanzen, dem gesamten GPU-Speicher und der Anzahl der Gpu Integritätsprüfungsziele ab (entspricht der Anzahl der Job-GPU-Ziele). Bei einem p4d.24xlarge beträgt die typische Dauer beispielsweise 3 Minuten.
Wenn die Gpu Integritätsprüfung auf einer Instanz ausgeführt wird, die nicht unterstützt wird, wird sie beendet und der Job wird auf dem Rechenknoten ausgeführt. Wenn eine Instanz beispielsweise keine GPU hat oder, wenn eine Instanz über eine GPU verfügt, es sich aber nicht um eine NVIDIA-GPU handelt, wird die Integritätsprüfung beendet und der Job wird auf dem Rechenknoten ausgeführt. Nur NVIDIA wird GPUs unterstützt.
Die Gpu Integritätsprüfung verwendet das dcgmi Tool, um Integritätsprüfungen an einem Knoten durchzuführen, und umfasst die folgenden Schritte:

Wenn die Gpu Zustandsprüfung in einem Knoten beginnt:
1. Es erkennt, ob die nvidia-fabricmanager Dienste nvidia-dcgm und ausgeführt werden.
2. Wenn diese Dienste nicht ausgeführt werden, werden sie durch die Gpu Integritätsprüfung gestartet.
3. Es erkennt, ob der Persistenzmodus aktiviert ist.
4. Wenn der Persistenzmodus nicht aktiviert ist, wird er durch die Gpu Integritätsprüfung aktiviert.
Am Ende der Zustandsprüfung werden diese Dienste und Ressourcen durch die Gpu Zustandsprüfung in ihren ursprünglichen Zustand zurückversetzt.
Wenn der Job einer bestimmten Gruppe von Knoten zugewiesen ist GPUs, wird die Gpu Integritätsprüfung nur für diese bestimmte Gruppe ausgeführt. Andernfalls wird die Gpu Integritätsprüfung für alle GPUs Knoten ausgeführt.
Wenn ein Rechenknoten zwei oder mehr Gpu Integritätsprüfungsanfragen gleichzeitig empfängt, wird nur die erste Zustandsprüfung ausgeführt und die anderen werden übersprungen. Dies ist auch bei Zustandsprüfungen des Zielknotens GPUs der Fall. Sie können in den Protokolldateien nach weiteren Informationen zu dieser Situation suchen.
Das Protokoll der Integritätsprüfung für einen bestimmten Rechenknoten ist in der /var/log/parallelcluster/slurm_health_check.log Datei verfügbar. Die Datei ist in Amazon CloudWatch in der CloudWatch Cluster-Protokollgruppe verfügbar. Dort finden Sie:
- Einzelheiten zu der Aktion, die im Rahmen der Gpu Integritätsprüfung ausgeführt wurde, einschließlich der Aktivierung und Deaktivierung von Diensten und des Persistenzmodus.
- Die GPU-Kennung, die serielle ID und die UUID.
- Die Ausgabe des Integritätschecks.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

HealthCheckswird ab AWS ParallelCluster Version 3.6.0 unterstützt.

`Networking`

(Erforderlich) Definiert die Netzwerkkonfiguration für die Slurm Warteschlange.


Networking:
  SubnetIds:
    - string
  AssignPublicIp: boolean
  SecurityGroups:
    - string
  AdditionalSecurityGroups:
    - string
  PlacementGroup:
    Enabled: boolean
    Id: string
    Name: string
  Proxy:
    HttpProxyAddress: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

`Networking`-Eigenschaften

SubnetIds(Erforderlich,[String])

Die IDs vorhandenen Subnetze, in denen Sie die Slurm Warteschlange bereitstellen.

Wenn Sie Instanztypen in SlurmQueues/ComputeResources/konfigurieren InstanceType, können Sie nur ein Subnetz definieren.

Wenn Sie Instanztypen in SlurmQueues/ComputeResources/konfigurieren Instances, können Sie ein einzelnes Subnetz oder mehrere Subnetze definieren.

Wenn Sie mehrere Subnetze verwenden, müssen sich alle für eine Warteschlange definierten Subnetze in derselben VPC befinden, wobei sich jedes Subnetz in einer separaten Availability Zone (AZ) befindet.

Nehmen wir beispielsweise an, Sie definieren Subnetz-1 und Subnetz-2 für Ihre Warteschlange.

subnet-1und subnet-2 können nicht beide in AZ-1 sein.

subnet-1kann in AZ-1 sein und subnet-2 kann in AZ-2 sein.

Wenn Sie nur einen Instance-Typ konfigurieren und mehrere Subnetze verwenden möchten, definieren Sie Ihren Instance-Typ in Instances und nicht. InstanceType

Definieren Sie beispielsweiseComputeResources/Instances/InstanceType= instance.type stattComputeResources/InstanceType=instance.type.

Anmerkung

Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt.

Die Verwendung mehrerer Availability Zones kann zu einer Erhöhung der Speichernetzwerklatenz und zu zusätzlichen Kosten für die Datenübertragung zwischen den einzelnen AZ-Datenbanken führen. Dies könnte beispielsweise der Fall sein, wenn eine Instance auf einen Dateispeicher zugreift, der sich in einer anderen AZ befindet. Weitere Informationen finden Sie unter Datenübertragung innerhalb derselben AWS-Region.

Cluster-Updates zur Umstellung von der Verwendung eines einzelnen Subnetzes auf mehrere Subnetze:

Angenommen, die Subnetzdefinition eines Clusters ist mit einem einzigen Subnetz und einem FSx für Lustre AWS ParallelCluster verwalteten Dateisystem definiert. Dann können Sie diesen Cluster nicht direkt mit einer aktualisierten Subnetz-ID-Definition aktualisieren. Um das Cluster-Update durchzuführen, müssen Sie zuerst das verwaltete Dateisystem in ein externes Dateisystem ändern. Weitere Informationen finden Sie unter Konvertiert AWS ParallelCluster verwalteten Speicher in externen Speicher.
Angenommen, die Subnetzdefinition eines Clusters ist mit einem einzelnen Subnetz und einem externen Amazon EFS-Dateisystem definiert, falls EFS-Mount-Ziele nicht für alle der AZs mehreren Subnetze existieren, die hinzugefügt werden sollen. Dann können Sie diesen Cluster nicht direkt mit einer aktualisierten Subnetz-ID-Definition aktualisieren. Um den Cluster zu aktualisieren oder einen Cluster zu erstellen, müssen Sie zunächst alle Mount-Ziele für alle der AZs definierten mehreren Subnetze erstellen.

Availability Zones und Cluster-Kapazitätsreservierungen, definiert in CapacityReservationResourceGroupArn:

Sie können keinen Cluster erstellen, wenn es keine Überschneidung zwischen den Instanztypen und Verfügbarkeitszonen, die von der definierten Ressourcengruppe für die Kapazitätsreservierung abgedeckt werden, und den für die Warteschlange definierten Instanztypen und Verfügbarkeitszonen gibt.
Sie können einen Cluster erstellen, wenn es eine teilweise Überschneidung zwischen den Instanztypen und Verfügbarkeitszonen, die von der definierten Ressourcengruppe für die Kapazitätsreservierung abgedeckt werden, und den für die Warteschlange definierten Instanztypen und Verfügbarkeitszonen gibt. AWS ParallelCluster sendet in diesem Fall eine Warnmeldung über die teilweise Überlappung.
Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).

Anmerkung

In AWS ParallelCluster Version 3.4.0 wurden mehrere Availability Zones hinzugefügt.

Warnung

Diese Warnung gilt für alle AWS ParallelCluster 3.x.y-Versionen vor Version 3.3.1. AWS ParallelCluster Version 3.3.1 ist nicht betroffen, wenn dieser Parameter geändert wird.

Für AWS ParallelCluster 3 Versionen vor Version 3.3.1:

Wenn Sie diesen Parameter ändern und einen Cluster aktualisieren, wird ein neues FSx für Lustre verwaltetes Dateisystem erstellt und das bestehende für Lustre verwaltete FSx Dateisystem gelöscht, ohne dass die vorhandenen Daten erhalten bleiben. Dies führt zu Datenverlust. Bevor Sie fortfahren, stellen Sie sicher, dass Sie die Daten aus dem vorhandenen FSx for Lustre-Dateisystem sichern, wenn Sie Daten beibehalten möchten. Weitere Informationen finden Sie unter Arbeiten mit Backups im FSx for Lustre-Benutzerhandbuch.

Wenn ein neuer Subnetzwert hinzugefügt wird, Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Wenn ein Subnetzwert entfernt wird, Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

AssignPublicIp(Fakultativ,String)

Erzeugt oder weist den Knoten in der Slurm Warteschlange eine öffentliche IP-Adresse zu. Unterstützte Werte sind true und false. Das von Ihnen angegebene Subnetz bestimmt den Standardwert. Ein Subnetz mit öffentlicher IPs Standardeinstellung für die Zuweisung öffentlicher IP-Adressen.

Wenn Sie einen hpc6id Instanztyp p4d oder einen anderen Instanztyp mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte definieren, müssen Sie HeadNode/Networking/ElasticIpauf festlegen, um öffentlichen Zugriff true zu gewähren. AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet wurden. In diesem Fall empfehlen wir, ein NAT-Gateway zu verwenden, um öffentlichen Zugriff auf die Cluster-Rechenknoten zu gewähren. Stellen Sie in diesem Fall AssignPublicIp auf einfalse. Weitere Informationen zu IP-Adressen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im Amazon EC2 EC2-Benutzerhandbuch für Linux-Instances.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

SecurityGroups(Optional,[String])

Eine Liste von Sicherheitsgruppen, die für die Slurm Warteschlange verwendet werden sollen. Wenn keine Sicherheitsgruppen angegeben sind, AWS ParallelCluster erstellt es Sicherheitsgruppen für Sie.

Stellen Sie sicher, dass die Sicherheitsgruppen für Ihre SharedStorageSysteme korrekt konfiguriert sind.

Warnung

Diese Warnung gilt für alle 3. x. y AWS ParallelCluster Versionen vor Version 3.3.0. AWS ParallelCluster Version 3.3.0 ist nicht betroffen, wenn dieser Parameter geändert wird.

Für AWS ParallelCluster 3 Versionen vor Version 3.3.0:

Wenn Sie diesen Parameter ändern und einen Cluster aktualisieren, wird ein neues FSx für Lustre verwaltetes Dateisystem erstellt und das bestehende für Lustre verwaltete FSx Dateisystem gelöscht, ohne dass die vorhandenen Daten erhalten bleiben. Dies führt zu Datenverlust. Stellen Sie sicher, dass Sie die Daten aus dem vorhandenen FSx for Lustre-Dateisystem sichern, wenn Sie Daten erhalten möchten. Weitere Informationen finden Sie unter Arbeiten mit Backups im FSx for Lustre-Benutzerhandbuch.

Warnung

Wenn Sie Efa für Ihre Compute-Instances aktivieren, stellen Sie sicher, dass Ihre EFA-fähigen Instances Mitglieder einer Sicherheitsgruppe sind, die den gesamten eingehenden und ausgehenden Datenverkehr für sich selbst zulässt.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

AdditionalSecurityGroups([String]Optional,)

Eine Liste zusätzlicher Sicherheitsgruppen, die für die Slurm Warteschlange verwendet werden sollen.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

PlacementGroup(Fakultativ)

Gibt die Platzierungsgruppeneinstellungen für die Slurm Warteschlange an.


PlacementGroup:
  Enabled: boolean
  Id: string
  Name: string

Aktualisierungsrichtlinie: Alle Rechenknoten müssen gestoppt werden, damit eine verwaltete Platzierungsgruppe gelöscht werden kann. Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Enabled(Optional,Boolean)

Gibt an, ob eine Platzierungsgruppe für die Slurm Warteschlange verwendet wird. Der Standardwert ist false.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Id(Fakultativ,String)

Die Platzierungsgruppen-ID für eine bestehende Cluster-Platzierungsgruppe, die von der Slurm Warteschlange verwendet wird. Stellen Sie sicher, dass Sie die Platzierungsgruppen-ID und nicht den Namen angeben.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Name(Fakultativ,String)

Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die von der Slurm Warteschlange verwendet wird. Stellen Sie sicher, dass Sie den Namen der Platzierungsgruppe und nicht die ID angeben.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

WennPlacementGroup/auf gesetzt Enabled isttrue, ohne dass ein Name oder Id definiert ist, wird jeder Rechenressource ihre eigene verwaltete Platzierungsgruppe zugewiesen, es sei denn, ComputeResources/Networking/PlacementGroupist so definiert, dass es diese Einstellung überschreibt.
Ab AWS ParallelCluster Version 3.3.0 Namewurde SlurmQueues/Networking/PlacementGroup/als bevorzugte Alternative zu SlurmQueues//NetworkingPlacementGroup/Idhinzugefügt.

PlacementGroup/Idund PlacementGroup/Namesind gleichwertig. Sie können beide verwenden.

Wenn Sie sowohl PlacementGroup/als auch PlacementGroup/Idangeben Name, AWS ParallelCluster schlägt dies fehl. Sie können nur das eine oder das andere wählen.

Sie müssen Ihren Cluster nicht aktualisieren, um PlacementGroup/verwenden zu können Name.
Wenn Sie eine Kapazitätsblockreservierung verwenden, sollte keine Platzierungsgruppenbeschränkung festgelegt werden, da aufgrund von Platzierungsbeschränkungen außerhalb der Reservierung Fehler zu unzureichenden Kapazitäten auftreten können, selbst wenn die Kapazitätsreservierung über Restkapazität verfügt.

Proxy(Fakultativ)

Gibt die Proxyeinstellungen für die Slurm Warteschlange an.


Proxy:
  HttpProxyAddress: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

HttpProxyAddress(Optional,String)

Definiert einen HTTP- oder HTTPS-Proxyserver für die Slurm Warteschlange. In der Regel ist eshttps://x.x.x.x:8080.

Es gibt keinen Standardwert.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

`Image`

(Optional) Gibt das Bild an, das für die Slurm Warteschlange verwendet werden soll. Um dasselbe AMI für alle Knoten zu verwenden, verwenden Sie die CustomAmiEinstellung im ImageAbschnitt.


Image:
  CustomAmi: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

`Image`Eigenschaften

CustomAmi(Fakultativ,String)

Das AMI, das für die Slurm Warteschlange anstelle der Standardeinstellung verwendet werden soll AMIs. Sie können den pcluster CLI-Befehl verwenden, um eine Liste der Standardeinstellungen anzuzeigen AMIs.

Anmerkung

Das AMI muss auf demselben Betriebssystem basieren, das vom Hauptknoten verwendet wird.


pcluster list-official-images

Wenn das benutzerdefinierte AMI zusätzliche Berechtigungen für seinen Start benötigt, müssen Sie diese Berechtigungen zur Head-Node-Richtlinie hinzufügen.

Wenn einem benutzerdefinierten AMI beispielsweise ein verschlüsselter Snapshot zugeordnet ist, sind die folgenden zusätzlichen Richtlinien in den Richtlinien für den Hauptknoten erforderlich.

Informationen zur Fehlerbehebung bei benutzerdefinierten AMI-Validierungswarnungen finden Sie unterBehebung von Problemen mit benutzerdefinierten AMIs.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

`ComputeResources`

(Erforderlich) Definiert die ComputeResources Konfiguration für die Slurm Warteschlange.

Anmerkung

Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität.
Neue Rechenressourcen können dem Cluster nur hinzugefügt werden, wenn sie in Subnetzen bereitgestellt werden, die zu CIDR-Blöcken gehören, die bei der Erstellung des Clusters vorhanden waren.


ComputeResources:
  - Name: string
    InstanceType: string
    Instances:
      - InstanceType: string    
    MinCount: integer
    MaxCount: integer
    DynamicNodePriority: integer
    StaticNodePriority: integer
    SpotPrice: float
    DisableSimultaneousMultithreading: boolean
    SchedulableMemory: integer
    HealthChecks:
      Gpu:    
        Enabled: boolean
    Efa:
      Enabled: boolean
      GdrSupport: boolean
    CapacityReservationTarget:
      CapacityReservationId: string
      CapacityReservationResourceGroupArn: string
    Networking:   
      PlacementGroup:
        Enabled: boolean
        Name: string
    CustomSlurmSettings: dict   
    Tags:
      - Key: string
        Value: string

`ComputeResources`-Eigenschaften

Name(Erforderlich,) String

Der Name der Slurm Warteschlangencomputer-Umgebung. Der Name kann bis zu 25 Zeichen lang sein.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

InstanceType(Erforderlich,String)

Der Instanztyp, der in dieser Slurm Rechenressource verwendet wird. Alle Instance-Typen in einem Cluster müssen dieselbe Prozessorarchitektur verwenden. Instanzen können entweder die x86_64 arm64 Oder-Architektur verwenden.

Die Clusterkonfiguration muss entweder Instanzen InstanceTypeoder definieren. Wenn beide definiert sind, AWS ParallelCluster schlägt dies fehl.

Wenn Sie definierenInstanceType, können Sie nicht mehrere Subnetze definieren. Wenn Sie nur einen Instanztyp konfigurieren und mehrere Subnetze verwenden möchten, definieren Sie Ihren Instanztyp in und Instances nicht in. InstanceType Weitere Informationen finden Sie unter Networking/SubnetIds.

Wenn Sie einen hpc6id Instance-Typ p4d oder einen anderen Instance-Typ mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte definieren, müssen Sie die Compute-Instances in einem privaten Subnetz starten, wie unter beschrieben. AWS ParallelCluster unter Verwendung von zwei Subnetzen AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet werden. Weitere Informationen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im Amazon EC2 EC2-Benutzerhandbuch für Linux-Instances.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

Instances(Erforderlich)

Gibt die Liste der Instanztypen für eine Rechenressource an. Informationen zur Angabe der Zuweisungsstrategie für die Liste der Instanztypen finden Sie unter AllocationStrategy.

In der Clusterkonfiguration muss entweder InstanceTypeoder definiert Instanceswerden. Wenn beide definiert sind, AWS ParallelCluster schlägt dies fehl.

Weitere Informationen finden Sie unter Zuweisung mehrerer Instanztypen mit Slurm.


Instances:
   - InstanceType: string

Anmerkung

Ab AWS ParallelCluster Version 3.7.0 EnableMemoryBasedScheduling kann aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6. x, EnableMemoryBasedScheduling kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

InstanceType(Erforderlich,String)

Der Instanztyp, der in dieser Slurm Rechenressource verwendet werden soll. Alle Instanztypen in einem Cluster müssen dieselbe Prozessorarchitektur verwenden, entweder x86_64 oderarm64.

Die unter aufgeführten Instanztypen Instancesmüssen Folgendes aufweisen:

Dieselbe Anzahl von v oderCPUs, falls DisableSimultaneousMultithreadingauf eingestellttrue, dieselbe Anzahl von Kernen.
Dieselbe Anzahl von Beschleunigern derselben Hersteller.
EFA wird unterstützt, falls Efa/auf Enabledgesetzt ist. true

Die unter aufgelisteten Instance-Typen Instanceskönnen Folgendes haben:

Unterschiedliche Speichermenge.

In diesem Fall muss der Mindestspeicher als verbrauchbare Slurm Ressource festgelegt werden.

Anmerkung
Ab AWS ParallelCluster Version 3.7.0 EnableMemoryBasedScheduling kann aktiviert werden, wenn Sie mehrere Instance-Typen in Instances konfigurieren.
Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6. x, EnableMemoryBasedScheduling kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.
Verschiedene Netzwerkkarten.

In diesem Fall wird die Anzahl der für die Rechenressource konfigurierten Netzwerkschnittstellen durch den Instanztyp mit der geringsten Anzahl von Netzwerkkarten definiert.
Unterschiedliche Netzwerkbandbreite.
Unterschiedliche Größe des Instance-Speichers.

Wenn Sie einen hpc6id Instance-Typ p4d oder einen anderen Instance-Typ mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte definieren, müssen Sie die Compute-Instances in einem privaten Subnetz starten, wie unter beschrieben. AWS ParallelCluster unter Verwendung von zwei Subnetzen AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet wurden. Weitere Informationen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im Amazon EC2 EC2-Benutzerhandbuch für Linux-Instances.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

Instanceswird ab AWS ParallelCluster Version 3.3.0 unterstützt.

MinCount(Fakultativ,Integer)

Die Mindestanzahl von Instanzen, die die Slurm Rechenressource verwendet. Der Standardwert ist 0.

Anmerkung

Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

MaxCount(Optional,Integer)

Die maximale Anzahl von Instanzen, die die Slurm Rechenressource verwendet. Der Standardwert ist 10.

Wenn Sie diese Option verwendenCapacityType = CAPACITY_BLOCK, MaxCount muss sie gleich oder MinCount größer als 0 sein, da alle Instanzen, die Teil der Capacity Block-Reservierung sind, als statische Knoten verwaltet werden.

Bei der Clustererstellung wartet der Hauptknoten, bis alle statischen Knoten bereit sind, bevor er den Erfolg der Clustererstellung signalisiert. Wenn Sie jedoch die Knoten verwendenCapacityType = CAPACITY_BLOCK, die Teil der Rechenressourcen sind, die Kapazitätsblöcken zugeordnet sind, werden sie bei dieser Prüfung nicht berücksichtigt. Der Cluster wird auch dann erstellt, wenn nicht alle konfigurierten Kapazitätsblöcke aktiv sind.

Anmerkung

Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität

DynamicNodePriority(Optional,Integer)

Die Priorität dynamischer Knoten in einer Queue-Rechenressource. Die Priorität ist dem Slurm WeightKnotenkonfigurationsparameter für die dynamischen Rechenressourcenknoten zugeordnet. Der Standardwert ist 1000.

Slurmpriorisiert zuerst Knoten mit den niedrigsten Weight Werten.

Warnung

Die Verwendung vieler verschiedener Weight Werte in einer Slurm Partition (Warteschlange) kann die Geschwindigkeit der Jobplanung in der Warteschlange verlangsamen.

In AWS ParallelCluster Versionen vor Version 3.7.0 wurde sowohl statischen als auch dynamischen Knoten dieselbe Standardgewichtung von 1 zugewiesen. In diesem Fall Slurm könnte aufgrund des Benennungsschemas für statische und dynamische Knoten im Leerlauf dynamische Knoten Vorrang vor inaktiven statischen Knoten eingeräumt werden. Wenn alles andere gleich ist, werden Knoten Slurm alphabetisch nach Namen sortiert.

Anmerkung

DynamicNodePrioritywurde in AWS ParallelCluster Version 3.7.0 hinzugefügt.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

StaticNodePriority(Fakultativ,Integer)

Die Priorität statischer Knoten in einer Queue-Rechenressource. Die Priorität ist dem Slurm WeightKnotenkonfigurationsparameter für die statischen Rechenressourcenknoten zugeordnet. Der Standardwert ist 1.

Slurmpriorisiert zuerst Knoten mit den niedrigsten Weight Werten.

Warnung

Die Verwendung vieler verschiedener Weight Werte in einer Slurm Partition (Warteschlange) kann die Geschwindigkeit der Jobplanung in der Warteschlange verlangsamen.

Anmerkung

StaticNodePrioritywurde in AWS ParallelCluster Version 3.7.0 hinzugefügt.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

SpotPrice(Fakultativ,Float)

Der Höchstpreis, der für eine Amazon EC2-Spot-Instance bezahlt wurde, bevor Instances gestartet wurden. Der Standardwert ist der On-Demand-Preis.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

DisableSimultaneousMultithreading(Optional,Boolean)

Wenn true Multithreading auf den Knoten in der Slurm Warteschlange deaktiviert ist. Der Standardwert ist false.

Nicht alle Instance-Typen können Multithreading deaktivieren. Eine Liste der Instance-Typen, die die Deaktivierung von Multithreading unterstützen, finden Sie im Amazon EC2 EC2-Benutzerhandbuch unter CPU-Kerne und Threads für jeden CPU-Kern pro Instance-Typ.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

SchedulableMemory(Optional,) Integer

Die Speichermenge in MiB, die im Slurm Parameter RealMemory für die Rechenknoten einer Rechenressource konfiguriert ist. Dieser Wert ist die Obergrenze für den Knotenspeicher, der für Jobs verfügbar ist, wenn SlurmSettings/aktiviert EnableMemoryBasedSchedulingist. Der Standardwert ist 95 Prozent des Speichers, der in Amazon EC2 EC2-Instanztypen aufgeführt und von der Amazon EC2 EC2-API zurückgegeben wird. DescribeInstanceTypes Achten Sie darauf, Werte, die in GiB angegeben sind, in MiB umzurechnen.

Unterstützte Werte: 1-EC2Memory

EC2Memoryist der Speicher (in MiB), der in Amazon EC2 EC2-Instanztypen aufgeführt und von der Amazon EC2 EC2-API zurückgegeben wird. DescribeInstanceTypes Achten Sie darauf, Werte, die in GiB angegeben sind, in MiB umzurechnen.

Diese Option ist am relevantesten, wenn SlurmSettings/aktiviert EnableMemoryBasedSchedulingist. Weitere Informationen finden Sie unter Slurm speicherbasierte Terminplanung.

Anmerkung

SchedulableMemorywird ab AWS ParallelCluster Version 3.2.0 unterstützt.

Ab Version 3.2.0 werden RealMemory für Slurm Rechenknoten standardmäßig 95 Prozent des Speichers AWS ParallelCluster konfiguriert, der von der Amazon EC2 EC2-API zurückgegeben wird. DescribeInstanceTypes Diese Konfiguration ist unabhängig vom Wert von. EnableMemoryBasedScheduling

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

HealthChecks(Fakultativ)

Geben Sie Integritätsprüfungen für eine Rechenressource an.

Gpu(Fakultativ)

Geben Sie GPU-Zustandsprüfungen für eine Rechenressource an.

Enabled(Fakultativ,Boolean): Gibt an AWS ParallelCluster , ob GPU-Zustandsprüfungen bei der Berechnung einer Ressource in einer Warteschlange durchgeführt werden. Der Standardwert ist false.

Anmerkung
AWS ParallelCluster unterstütztHealthChecks/nicht Gpu in Knoten, die alinux2 ARM-Betriebssysteme verwenden. Diese Plattformen unterstützen den NVIDIA Data Center GPU Manager (DCGM) nicht.

`Gpu`Verhalten bei der Gesundheitsprüfung

WennGpu/auf gesetzt Enabled isttrue, AWS ParallelCluster werden GPU-Integritätsprüfungen für eine Rechenressource durchgeführt.
Die Gpu Zustandsprüfung führt Integritätsprüfungen für eine Rechenressource durch, um zu verhindern, dass Jobs auf Knoten mit einer herabgesetzten GPU gesendet werden.
Wenn ein Rechenknoten eine Gpu Zustandsprüfung nicht besteht, ändert sich der Status des Rechenknotens aufDRAIN. Neue Jobs werden auf diesem Knoten nicht gestartet. Bestehende Jobs werden bis zum Abschluss ausgeführt. Wenn alle laufenden Jobs abgeschlossen sind, wird der Rechenknoten beendet, wenn es sich um einen dynamischen Knoten handelt, und er wird ersetzt, wenn es sich um einen statischen Knoten handelt.
Die Dauer der Gpu Integritätsprüfung hängt vom ausgewählten Instanztyp, der Anzahl der Instanzziele GPUs in der Instanz und der Anzahl der Gpu Integritätsprüfungsziele ab (entspricht der Anzahl der Job-GPU-Ziele). Bei einer Instanz mit 8 GPUs beträgt die typische Dauer weniger als 3 Minuten.
Wenn die Gpu Integritätsprüfung auf einer Instanz ausgeführt wird, die nicht unterstützt wird, wird sie beendet und der Job wird auf dem Rechenknoten ausgeführt. Wenn eine Instanz beispielsweise keine GPU hat oder, wenn eine Instanz über eine GPU verfügt, es sich aber nicht um eine NVIDIA-GPU handelt, wird die Integritätsprüfung beendet und der Job wird auf dem Rechenknoten ausgeführt. Nur NVIDIA wird GPUs unterstützt.
Die Gpu Integritätsprüfung verwendet das dcgmi Tool, um Integritätsprüfungen an einem Knoten durchzuführen, und umfasst die folgenden Schritte:

Wenn die Gpu Zustandsprüfung in einem Knoten beginnt:
1. Es erkennt, ob die nvidia-fabricmanager Dienste nvidia-dcgm und ausgeführt werden.
2. Wenn diese Dienste nicht ausgeführt werden, werden sie durch die Gpu Integritätsprüfung gestartet.
3. Es erkennt, ob der Persistenzmodus aktiviert ist.
4. Wenn der Persistenzmodus nicht aktiviert ist, wird er durch die Gpu Integritätsprüfung aktiviert.
Am Ende der Zustandsprüfung werden diese Dienste und Ressourcen durch die Gpu Zustandsprüfung in ihren ursprünglichen Zustand zurückversetzt.
Wenn der Job einer bestimmten Gruppe von Knoten zugewiesen ist GPUs, wird die Gpu Integritätsprüfung nur für diese bestimmte Gruppe ausgeführt. Andernfalls wird die Gpu Integritätsprüfung für alle GPUs Knoten ausgeführt.
Wenn ein Rechenknoten zwei oder mehr Gpu Integritätsprüfungsanfragen gleichzeitig empfängt, wird nur die erste Zustandsprüfung ausgeführt und die anderen werden übersprungen. Dies ist auch bei Zustandsprüfungen der Fall, die auf den Knoten GPUs abzielen. Sie können in den Protokolldateien nach weiteren Informationen zu dieser Situation suchen.
Das Protokoll der Integritätsprüfung für einen bestimmten Rechenknoten ist in der /var/log/parallelcluster/slurm_health_check.log Datei verfügbar. Diese Datei ist in Amazon CloudWatch in der CloudWatch Cluster-Protokollgruppe verfügbar. Dort finden Sie:
- Einzelheiten zu der Aktion, die durch die Gpu Zustandsprüfung ausgeführt wurde, einschließlich der Aktivierung und Deaktivierung von Diensten und des Persistenzmodus.
- Die GPU-Kennung, die serielle ID und die UUID.
- Die Ausgabe des Integritätschecks.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

HealthCheckswird ab AWS ParallelCluster Version 3.6.0 unterstützt.

Efa(Fakultativ)

Gibt die Elastic Fabric Adapter (EFA) -Einstellungen für die Knoten in der Slurm Warteschlange an.


Efa:
  Enabled: boolean
  GdrSupport: boolean

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Enabled(Optional,Boolean)

Gibt an, dass der Elastic Fabric Adapter (EFA) aktiviert ist. Eine Liste der Amazon EC2 EC2-Instances, die EFA unterstützen, finden Sie unter Unterstützte Instance-Typen im Amazon EC2 EC2-Benutzerhandbuch für Linux-Instances. Weitere Informationen finden Sie unter Elastic Fabric Adapter. Wir empfehlen die Verwendung eines Clusters SlurmQueues/Networking/, um die Latenzen zwischen PlacementGroupden Instances zu minimieren.

Der Standardwert ist false.

Anmerkung

Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt. Weitere Informationen finden Sie unter SubnetIds.

Warnung

Wenn Sie eine benutzerdefinierte Sicherheitsgruppe in definieren SecurityGroups, stellen Sie sicher, dass Ihre EFA-fähigen Instances Mitglieder einer Sicherheitsgruppe sind, die den gesamten eingehenden und ausgehenden Datenverkehr für sich selbst zulässt.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

GdrSupport(Optional,) Boolean

(Optional) Ab AWS ParallelCluster Version 3.0.2 hat diese Einstellung keine Auswirkung. Die Unterstützung des Elastic Fabric Adapter (EFA) für GPUDirect RDMA (Remote Direct Memory Access) ist immer aktiviert, wenn sie vom Instance-Typ für die Slurm Rechenressource und das Betriebssystem unterstützt wird.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

CapacityReservationTarget


CapacityReservationTarget:
   CapacityReservationId: string
   CapacityReservationResourceGroupArn: string

Gibt die On-Demand-Kapazitätsreservierung an, die für die Rechenressource verwendet werden soll.

CapacityReservationId(Optional,String)

Wenn dieser Parameter auf Rechenressourcenebene angegeben wird, InstanceType ist er optional und wird automatisch aus der Reservierung abgerufen.

CapacityReservationResourceGroupArn(Optional,String)

Gibt den Amazon-Ressourcennamen (ARN) der Ressourcengruppe an, die als serviceverknüpfte Gruppe von Kapazitätsreservierungen für die Rechenressource dient. AWS ParallelCluster identifiziert und verwendet die am besten geeignete Kapazitätsreservierung aus der Gruppe. Die Ressourcengruppe muss mindestens ein ODCR für jeden Instanztyp haben, der für die Rechenressource aufgeführt ist. Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).

Wenn in SlurmQueues/Networkingoder SlurmQueues//aktiviert PlacementGroup ist, wird eine Ressourcengruppe AWS ParallelCluster ausgewählt Networking, die auf den Instanztyp abzielt, und PlacementGroup für eine Rechenressource, falls diese existiert. ComputeResources

Sie PlacementGroup muss auf einen der in definierten Instanztypen abzielen ComputeResources.
Wenn sie in SlurmQueues/Networkingoder SlurmQueuesComputeResources/PlacementGroupnicht aktiviert ist Networking, AWS ParallelCluster wird eine Ressourcengruppe ausgewählt, die nur auf den Instanztyp einer Rechenressource abzielt, sofern diese existiert.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

CapacityReservationTargetwird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.

Networking


Networking:   
  PlacementGroup:
    Enabled: boolean
    Name: string

PlacementGroup(Fakultativ)

Gibt die Platzierungsgruppeneinstellungen für die Rechenressource an.

Enabled(Optional,Boolean)

Gibt an, ob eine Platzierungsgruppe für die Rechenressource verwendet wird.

Wenn dieser Wert auf true gesetzt ist und kein Name definierter Wert angegeben ist, wird dieser Rechenressource unabhängig von der PlacementGroupEinstellung SlurmQueues/Networking/eine eigene verwaltete Platzierungsgruppe zugewiesen.
Wenn dieser Wert auf true gesetzt ist und ein Name Wert definiert ist, wird dieser Rechenressource unabhängig von denSlurmQueues/Networking/PlacementGroup-Einstellungen die benannte Platzierungsgruppe zugewiesen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Name(Optional,String)

Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die für die Rechenressource verwendet wird.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

Wenn Enabled sowohlPlacementGroup/als auch Name nicht gesetzt sind, werden für ihre jeweiligen Werte standardmäßig die PlacementGroupEinstellungen SlurmQueues/Networking/verwendet.
Wenn Sie eine Kapazitätsblockreservierung verwenden, sollte keine Platzierungsgruppenbeschränkung festgelegt werden, da aufgrund von Platzierungsbeschränkungen außerhalb der Reservierung Fehler zu unzureichenden Kapazitäten auftreten können, selbst wenn die Kapazitätsreservierung über Restkapazität verfügt.
ComputeResources/Networking/PlacementGroupwurde mit AWS ParallelCluster Version 3.3.0 hinzugefügt.

CustomSlurmSettings(Fakultativ,Dict)

(Optional) Definiert die Konfigurationseinstellungen für den benutzerdefinierten Slurm Knoten (Rechenressource).

Gibt ein Wörterbuch mit Schlüssel-Wert-Paaren für benutzerdefinierte Slurm Konfigurationsparameter an, die für Slurm Knoten (Rechenressourcen) gelten.

Jedes einzelne Schlüssel-Wert-Paar, z. B.Param1: Value1, wird separat am Ende der Slurm Knotenkonfigurationszeile im Format hinzugefügt. Param1=Value1

Weitere Hinweise zum Angeben von benutzerdefinierten Slurm Konfigurationsparametern mit finden Sie AWS ParallelCluster unterSlurm Anpassung der Konfiguration.

Weitere Informationen zu Slurm Konfigurationsparametern finden Sie in der Dokumentation unter slurm.conf. Slurm

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster

Tags(Optional, [Zeichenfolge])

Eine Liste von Tag-Schlüssel-Wert-Paaren. ComputeResourceTags überschreiben doppelte Tags, die in Tags Abschnitt oder SlurmQueues/angegeben sind. Tags

Key(Optional,String): Der Tag-Schlüssel.
Value(Fakultativ,String): Der Tag-Wert.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

`ComputeSettings`

(Erforderlich) Definiert die ComputeSettings Konfiguration für die Slurm Warteschlange.

`ComputeSettings`-Eigenschaften

Gibt die Eigenschaften ComputeSettings der Knoten in der Slurm Warteschlange an.


ComputeSettings:
  LocalStorage:
    RootVolume:
      Size: integer
      Encrypted: boolean
      VolumeType: string
      Iops: integer
      Throughput: integer
     EphemeralVolume:
      MountDir: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

LocalStorage(Fakultativ)

Gibt die Eigenschaften LocalStorage der Knoten in der Slurm Warteschlange an.


LocalStorage:
  RootVolume:
    Size: integer
    Encrypted: boolean
    VolumeType: string
    Iops: integer
    Throughput: integer
  EphemeralVolume:
    MountDir: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

RootVolume(Fakultativ)

Gibt die Details des Root-Volumes der Knoten in der Slurm Warteschlange an.


RootVolume:
  Size: integer
  Encrypted: boolean
  VolumeType: string
  Iops: integer
  Throughput: integer

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Size(Fakultativ,Integer)

Gibt die Größe des Root-Volumes in Gibibyte (GiB) für die Knoten in der Slurm Warteschlange an. Die Standardgröße stammt aus dem AMI. Die Verwendung einer anderen Größe erfordert, dass das AMI sie unterstütztgrowroot.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Encrypted(Fakultativ,Boolean)

Fallstrue, ist das Root-Volume der Knoten in der Slurm Warteschlange verschlüsselt. Der Standardwert ist true.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

VolumeType(Fakultativ,String)

Gibt den Amazon EBS-Volumetyp der Knoten in der Slurm Warteschlange an. Unterstützte Werte sind gp2gp3,io1,io2, sc1st1, undstandard. Der Standardwert ist gp3.

Weitere Informationen finden Sie unter Amazon EBS-Volume-Typen im Amazon EC2-Benutzerhandbuch.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Iops(Fakultativ,Boolean)

Definiert die Anzahl der IOPS für Volumes gp3 vom Typ io1io2, und.

Der Standardwert, die unterstützten Werte und das volume_size Verhältnis volume_iops zum Verhältnis variieren je nach VolumeType undSize.

VolumeType = io1

Standard Iops = 100

Unterstützte Werte Iops = 100—64000 †

Maximales volume_iops volume_size Verhältnis = 50 IOPS pro GiB. 5000 IOPS erfordern einen Wert volume_size von mindestens 100 GiB.

VolumeType = io2

Standard Iops = 100

Unterstützte Werte Iops = 100—64000 (256000 für io2 Block Express-Volumes) †

Maximales Iops Size Verhältnis = 500 IOPS pro GiB. 5000 IOPS erfordern einen Wert Size von mindestens 10 GiB.

VolumeType = gp3

Standard Iops = 3000

Unterstützte Werte Iops = 3000—16000 †

Maximales Iops Size Verhältnis = 500 IOPS pro GiB für Volumes mit mehr als 3000 IOPS.

† Maximale IOPS wird nur für Instances garantiert, die auf dem Nitro-System basieren und auch mit mehr als 32.000 IOPS ausgestattet sind. Andere Instanzen können bis zu 32.000 IOPS haben. Frühere io1 Volumes erreichen möglicherweise nicht die volle Leistung, es sei denn, Sie ändern das Volume. io2 Block Express-Volumes unterstützen volume_iops Werte bis zu 256000 für R5b Instance-Typen. Weitere Informationen finden Sie unter io2Block Express-Volumes im Amazon EC2 EC2-Benutzerhandbuch.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Throughput(Fakultativ,Integer)

Definiert den Durchsatz für gp3 Volumetypen in MiB/s. Diese Einstellung ist nur gültig, wenn sie VolumeType ist. gp3 Der Standardwert ist 125. Unterstützte Werte: 125—1000 MiB/s

Das Verhältnis von Throughput zu Iops darf nicht mehr als 0,25 betragen. Der maximale Durchsatz von 1000 MiB/s setzt voraus, dass die Iops Einstellung mindestens 4000 beträgt.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

EphemeralVolume(Fakultativ,Boolean)

Gibt die Einstellungen für das kurzlebige Volumen an. Das ephemere Volume wird erstellt, indem alle Instance-Speicher-Volumes zu einem einzigen logischen Volume zusammengefasst werden, das mit dem Dateisystem formatiert ist. ext4 Der Standardwert ist /scratch. Wenn der Instance-Typ keine Instance-Speicher-Volumes hat, wird kein ephemeres Volume erstellt. Weitere Informationen finden Sie unter Instance-Speicher-Volumes im Amazon EC2-Benutzerhandbuch.


EphemeralVolume:
  MountDir: string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

MountDir(Optional,) String

Das Mount-Verzeichnis für das ephemere Volume für jeden Knoten in der Slurm Warteschlange.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

`CustomActions`

(Optional) Gibt benutzerdefinierte Skripts an, die auf den Knoten in der Slurm Warteschlange ausgeführt werden sollen.


CustomActions:
  OnNodeStart:
    Sequence:
      - Script: string
        Args:
          - string
    Script: string
    Args:
      - string
  OnNodeConfigured:
    Sequence:
      - Script: string
        Args:
          - string
    Script: string
    Args:
      - string

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

`CustomActions`Eigenschaften

OnNodeStart(Fakultativ,String)

Gibt eine Sequenz von Skripten oder ein einzelnes Skript an, das auf den Knoten in der Slurm Warteschlange ausgeführt werden soll, bevor eine Bootstrap-Aktion zur Knotenbereitstellung gestartet wird. AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch Sequence dieselbe benutzerdefinierte Aktion einzubeziehen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.

Sequence(Fakultativ)

Liste der auszuführenden Skripts.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Script(Erforderlich,String)

Die zu verwendende Datei. Der Dateipfad kann mit https:// oder beginnens3://.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Args(Fakultativ,[String])

Die Liste der Argumente, die an das Skript übergeben werden sollen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Script(Erforderlich,String)

Die Datei, die für ein einzelnes Skript verwendet werden soll. Der Dateipfad kann mit https:// oder beginnens3://.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Args(Fakultativ,[String])

Die Liste der Argumente, die an das einzelne Skript übergeben werden sollen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

OnNodeConfigured(Fakultativ,String)

Gibt eine Sequenz von Skripten oder ein einzelnes Skript an, das auf den Knoten in der Slurm Warteschlange ausgeführt wird, nachdem alle Knoten-Bootstrap-Aktionen abgeschlossen sind. AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch Sequence dieselbe benutzerdefinierte Aktion einzubeziehen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.

Sequence(Fakultativ)

Liste der auszuführenden Skripts.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Script(Erforderlich,String)

Die zu verwendende Datei. Der Dateipfad kann mit https:// oder beginnens3://.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Args(Fakultativ,[String])

Die Liste der Argumente, die an das Skript übergeben werden sollen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Script(Erforderlich,String)

Die Datei, die für ein einzelnes Skript verwendet werden soll. Der Dateipfad kann mit https:// oder beginnens3://.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Args(Fakultativ,[String])

Eine Liste von Argumenten, die an das einzelne Skript übergeben werden sollen.

Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

Sequencewird ab AWS ParallelCluster Version 3.6.0 hinzugefügt. Wenn Sie angebenSequence, können Sie mehrere Skripts für eine benutzerdefinierte Aktion auflisten. AWS ParallelCluster unterstützt weiterhin die Konfiguration einer benutzerdefinierten Aktion mit einem einzigen Skript, ohne dies einzuschließenSequence.

AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch Sequence dieselbe benutzerdefinierte Aktion einzubeziehen.

`Iam`

(Optional) Definiert optionale IAM-Einstellungen für die Slurm Warteschlange.


Iam:
  S3Access:
    - BucketName: string
      EnableWriteAccess: boolean
      KeyName: string
  AdditionalIamPolicies:
    - Policy: string
  InstanceProfile: string
  InstanceRole: string

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

`Iam`Eigenschaften

InstanceProfile(Fakultativ,String)

Gibt ein Instanzprofil an, um die Standard-Instanzrolle oder das Instanzprofil für die Slurm Warteschlange zu überschreiben. Sie können nicht sowohl als InstanceProfile auch angebenInstanceRole. Das Format ist arn:${Partition}:iam::${Account}:instance-profile/${InstanceProfileName}.

Wenn dies angegeben ist, können die AdditionalIamPolicies Einstellungen S3Access und nicht angegeben werden.

Es wird empfohlen, eine oder beide AdditionalIamPolicies Einstellungen für S3Access und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

InstanceRole(Optional,String)

Gibt eine Instanzrolle an, um die Standard-Instanzrolle oder das Instanzprofil für die Slurm Warteschlange zu überschreiben. Sie können nicht sowohl als InstanceProfile auch angebenInstanceRole. Das Format ist arn:${Partition}:iam::${Account}:role/${RoleName}.

Wenn dies angegeben ist, können die AdditionalIamPolicies Einstellungen S3Access und nicht angegeben werden.

Es wird empfohlen, eine oder beide AdditionalIamPolicies Einstellungen für S3Access und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

S3Access(Fakultativ)

Gibt einen Bucket für die Slurm Warteschlange an. Dies wird verwendet, um Richtlinien zu generieren, um den angegebenen Zugriff auf den Bucket in der Slurm Warteschlange zu gewähren.

Wenn dies angegeben ist, können die InstanceRole Einstellungen InstanceProfile und nicht angegeben werden.

Es wird empfohlen, eine oder beide AdditionalIamPolicies Einstellungen für S3Access und anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.


S3Access:
  - BucketName: string
    EnableWriteAccess: boolean
    KeyName: string

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

BucketName(Erforderlich,String)

Der Name des -Buckets.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

KeyName(Fakultativ,String)

Der Schlüssel für den Eimer. Der Standardwert ist *.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

EnableWriteAccess(Fakultativ,Boolean)

Gibt an, ob der Schreibzugriff für den Bucket aktiviert ist.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

AdditionalIamPolicies(Fakultativ)

Gibt eine Liste von Amazon Resource Names (ARNs) von IAM-Richtlinien für Amazon EC2 an. Diese Liste ist zusätzlich zu den Berechtigungen, die für erforderlich sind, an die Root-Rolle angehängt, die für die Slurm Warteschlange verwendet wird. AWS ParallelCluster

Ein IAM-Richtlinienname und sein ARN sind unterschiedlich. Namen können nicht verwendet werden.

Wenn dies angegeben ist, können die InstanceRole Einstellungen InstanceProfile und nicht angegeben werden.

Wir empfehlen die Verwendung, AdditionalIamPolicies da sie zu den erforderlichen Berechtigungen hinzugefügt AdditionalIamPolicies werden und alle erforderlichen Berechtigungen enthalten InstanceRole müssen. AWS ParallelCluster Die erforderlichen Berechtigungen ändern sich häufig von Version zu Version, da Funktionen hinzugefügt werden.

Es gibt keinen Standardwert.


AdditionalIamPolicies:
  - Policy: string

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Policy(Erforderlich,[String])

Liste der IAM-Richtlinien.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

`SlurmSettings`

(Optional) Definiert die EinstellungenSlurm, die für den gesamten Cluster gelten.


SlurmSettings:
  ScaledownIdletime: integer
  QueueUpdateStrategy: string
  EnableMemoryBasedScheduling: boolean
  CustomSlurmSettings: [dict] 
  CustomSlurmSettingsIncludeFile: string
  Database:
    Uri: string
    UserName: string
    PasswordSecretArn: string
  ExternalSlurmdbd:
    Host: string
    Port: integer
  Dns:
    DisableManagedDns: boolean
    HostedZoneId: string
    UseEc2Hostnames: boolean

`SlurmSettings`Eigenschaften

ScaledownIdletime(Fakultativ,Integer)

Definiert den Zeitraum (in Minuten), für den es keinen Job gibt und der Slurm Knoten beendet wird.

Der Standardwert ist 10.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

MungeKeySecretArn(Optional,String)

Der Amazon-Ressourcenname (ARN) des AWS Secrets Manager Manager-Geheimnisses im Klartext, das den Base64-kodierten Munge-Schlüssel enthält, der im Cluster verwendet werden soll. Slurm Dieser Munge-Schlüssel wird verwendet, um RPC-Aufrufe zwischen Slurm Client-Befehlen und Slurm Daemons zu authentifizieren, die als Remoteserver agieren. Wenn MungeKeySecretArn nicht angegeben, AWS ParallelCluster wird ein zufälliger Munge-Schlüssel für den Cluster generiert.

Anmerkung

MungeKeySecretArnwird ab AWS ParallelCluster Version 3.8.0 unterstützt.

Warnung

Wenn der MungeKeySecretArn neu zu einem vorhandenen Cluster hinzugefügt ParallelCluster wird, wird der vorherige munge Key im Falle eines Rollbacks oder beim späteren Entfernen des nicht wiederhergestellt. MungeKeySecretArn Stattdessen wird ein neuer zufälliger Munge-Schlüssel generiert.

Ob der AWS ParallelCluster Benutzer die Erlaubnis hat, DescribeSecretauf diese bestimmte geheime Ressource zuzugreifen, MungeKeySecretArn wird überprüft. MungeKeySecretArn ist gültig, wenn:

Das angegebene Geheimnis ist vorhanden, und
Das Geheimnis ist Klartext und enthält eine gültige Base64-kodierte Zeichenfolge, und
Der dekodierte binäre Munge-Schlüssel hat eine Größe zwischen 256 und 8192 Bit.

Wenn die IAM-Richtlinie für den Pcluster-Benutzer nicht einschließt DescribeSecret, MungeKeySecretArn wird sie nicht validiert und es wird eine Warnmeldung angezeigt. Weitere Informationen finden Sie unter AWS ParallelCluster pclusterGrundlegende Benutzerrichtlinie.

Wenn Sie ein Update MungeKeySecretArn durchführen, müssen die Rechenflotte und alle Anmeldeknoten gestoppt werden.

Wenn der geheime Wert im geheimen ARN geändert wird, während der ARN gleich bleibt, wird der Cluster nicht automatisch mit dem neuen Munge-Schlüssel aktualisiert. Um den neuen Munge-Schlüssel des geheimen ARN zu verwenden, müssen Sie die Compute-Flotte und die Anmeldeknoten stoppen und dann den folgenden Befehl vom Hauptknoten aus ausführen.

sudo /opt/parallelcluster/scripts/slurm/update_munge_key.sh

Nachdem Sie den Befehl ausgeführt haben, können Sie sowohl die Rechenflotte als auch die Anmeldeknoten wieder aufnehmen: Die neu bereitgestellten Rechen- und Anmeldeknoten werden automatisch mit dem neuen Munge-Schlüssel gestartet.

Um einen Base64-codierten benutzerdefinierten Munge-Schlüssel zu generieren, können Sie das im Lieferumfang der Munge-Software enthaltene Mungekey-Hilfsprogramm verwenden und es dann mit dem Base64-Hilfsprogramm codieren, das allgemein in Ihrem Betriebssystem verfügbar ist. Alternativ können Sie entweder bash verwenden (bitte setzen Sie den bs-Parameter zwischen 32 und 1024)

dd if=/dev/random bs=128 count=1 2>/dev/null | base64 -w 0

oder Python wie folgt:


import random
import os
import base64

# key length in bytes
key_length=128

base64.b64encode(os.urandom(key_length)).decode("utf-8")

Richtlinie aktualisieren: Die Rechenflotte und die Anmeldeknoten müssen gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

QueueUpdateStrategy(Optional,String)

Gibt die Ersatzstrategie für die SlurmQueues Abschnittsparameter an, für die die folgende Aktualisierungsrichtlinie gilt:

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt oder QueueUpdateStrategy eingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.

Der QueueUpdateStrategy Wert wird nur verwendet, wenn ein Cluster-Aktualisierungsprozess gestartet wird.

Zulässige Werte: COMPUTE_FLEET_STOP | DRAIN | TERMINATE

Standardwert: COMPUTE_FLEET_STOP

DRAIN

Knoten in Warteschlangen mit geänderten Parameterwerten sind auf DRAINING eingestellt. Knoten in diesem Status akzeptieren keine neuen Jobs und laufende Jobs werden bis zum Abschluss fortgesetzt.

Wenn ein Knoten zu idle (DRAINED) wird, wird ein Knoten ersetzt, wenn es sich um einen statischen Knoten handelt, und der Knoten wird beendet, wenn der Knoten dynamisch ist. Andere Knoten in anderen Warteschlangen ohne geänderte Parameterwerte sind nicht betroffen.

Die Zeit, die diese Strategie benötigt, um alle Warteschlangenknoten durch geänderte Parameterwerte zu ersetzen, hängt von der laufenden Arbeitslast ab.

COMPUTE_FLEET_STOP

Der Standardwert des QueueUpdateStrategy Parameters. Bei dieser Einstellung müssen Sie zum Aktualisieren der Parameter SlurmQueues im Abschnitt die Rechenflotte beenden, bevor Sie ein Cluster-Update durchführen:


$ pcluster update-compute-fleet --status STOP_REQUESTED

TERMINATE

In Warteschlangen mit geänderten Parameterwerten werden laufende Jobs beendet und die Knoten werden sofort heruntergefahren.

Statische Knoten werden ersetzt und dynamische Knoten werden beendet.

Andere Knoten in anderen Warteschlangen ohne geänderte Parameterwerte sind nicht betroffen.

Aktualisierungsrichtlinie: Diese Einstellung wird während eines Updates nicht analysiert.

Anmerkung

QueueUpdateStrategywird ab AWS ParallelCluster Version 3.2.0 unterstützt.

EnableMemoryBasedScheduling(Fakultativ,Boolean)

Falls true die speicherbasierte Planung in aktiviert ist. Slurm Weitere Informationen finden Sie unter SlurmQueues//ComputeResources. SchedulableMemory

Der Standardwert ist false.

Warnung

Die Aktivierung der speicherbasierten Planung wirkt sich auf die Art und Weise aus, wie der Slurm Scheduler Jobs und die Knotenzuweisung verarbeitet.

Weitere Informationen finden Sie unter Slurm speicherbasierte Terminplanung.

Anmerkung

EnableMemoryBasedSchedulingwird ab Version 3.2.0 unterstützt. AWS ParallelCluster

Anmerkung

Ab AWS ParallelCluster Version 3.7.0 EnableMemoryBasedScheduling kann aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6. x, EnableMemoryBasedScheduling kann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

CustomSlurmSettings(Optional,[Dict])

Definiert die benutzerdefinierten Slurm Einstellungen, die für den gesamten Cluster gelten.

Gibt eine Liste von Slurm Konfigurationswörterbüchern mit Schlüssel-Wert-Paaren an, die an das Ende der generierten Datei angehängt werden. slurm.conf AWS ParallelCluster

Jedes Wörterbuch in der Liste wird als separate Zeile angezeigt, die der Konfigurationsdatei hinzugefügt wird. Slurm Sie können entweder einfache oder komplexe Parameter angeben.

Einfache Parameter bestehen aus einem einzigen key pair, wie in den folgenden Beispielen gezeigt:


 - Param1: 100
 - Param2: "SubParam1,SubParam2=SubValue2"

In der Slurm Konfiguration gerendertes Beispiel:


Param1=100
Param2=SubParam1,SubParam2=SubValue2

Komplexe Slurm Konfigurationsparameter bestehen aus mehreren durch Leerzeichen getrennten Schlüsselwertpaaren, wie in den nächsten Beispielen gezeigt:


 - NodeName: test-nodes[1-10]
   CPUs: 4
   RealMemory: 4196
   ... # other node settings
 - NodeSet: test-nodeset
   Nodes: test-nodes[1-10]
   ... # other nodeset settings
 - PartitionName: test-partition
   Nodes: test-nodeset
   ... # other partition settings

Beispiel, gerendert in der Konfiguration: Slurm


NodeName=test-nodes[1-10] CPUs=4 RealMemory=4196 ... # other node settings
NodeSet=test-nodeset Nodes=test-nodes[1-10] ... # other nodeset settings
PartitionName=test-partition Nodes=test-nodeset ... # other partition settings

Anmerkung

Benutzerdefinierte Slurm Knoten dürfen die -st- -dy- Oder-Muster nicht in ihren Namen enthalten. Diese Muster sind Knoten vorbehalten, die von verwaltet werden AWS ParallelCluster.

Wenn Sie benutzerdefinierte Slurm Konfigurationsparameter in angebenCustomSlurmSettings, dürfen Sie keine benutzerdefinierten Slurm Konfigurationsparameter für angebenCustomSlurmSettingsIncludeFile.

Sie können nur Slurm Konfigurationsparameter angeben, die in nicht auf der Sperrliste stehen. CustomSlurmSettings Hinweise zu Slurm Konfigurationsparametern auf der Sperrliste finden Sie unter. Auf der Denim-Liste Slurm Konfigurationsparameter für CustomSlurmSettings

Weitere Hinweise zum Angeben von benutzerdefinierten Slurm Konfigurationsparametern mit finden Sie AWS ParallelCluster unterSlurm Anpassung der Konfiguration.

Weitere Informationen zu Slurm Konfigurationsparametern finden Sie in der Dokumentation unter slurm.conf. Slurm

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster

CustomSlurmSettingsIncludeFile(Fakultativ,String)

Definiert die benutzerdefinierten Slurm Einstellungen, die für den gesamten Cluster gelten.

Gibt die benutzerdefinierte Slurm Datei an, die aus benutzerdefinierten Slurm Konfigurationsparametern besteht, die am Ende der AWS ParallelCluster generierten slurm.conf Datei angehängt werden.

Sie müssen den Pfad zur Datei angeben. Der Pfad kann mit https:// oder beginnens3://.

Wenn Sie benutzerdefinierte Slurm Konfigurationsparameter für angebenCustomSlurmSettingsIncludeFile, dürfen Sie keine benutzerdefinierten Slurm Konfigurationsparameter für angebenCustomSlurmSettings.

Anmerkung

Benutzerdefinierte Slurm Knoten dürfen keine -dy- Oder-Muster in ihren Namen enthalten. -st- Diese Muster sind Knoten vorbehalten, die von verwaltet werden AWS ParallelCluster.

Sie können nur Slurm Konfigurationsparameter angeben, die nicht auf der Sperrliste stehen. CustomSlurmSettingsIncludeFile Hinweise zu Slurm Konfigurationsparametern auf der Sperrliste finden Sie unter. Auf der Denim-Liste Slurm Konfigurationsparameter für CustomSlurmSettings

Weitere Hinweise zum Angeben von benutzerdefinierten Slurm Konfigurationsparametern mit finden Sie AWS ParallelCluster unterSlurm Anpassung der Konfiguration.

Weitere Informationen zu Slurm Konfigurationsparametern finden Sie in der Dokumentation unter slurm.conf. Slurm

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Anmerkung

CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster

`Database`

(Optional) Definiert die Einstellungen zur Aktivierung von Slurm Accounting auf dem Cluster. Weitere Informationen finden Sie unter SlurmAbrechnung mit AWS ParallelCluster.


Database:
   Uri: string
   UserName: string
   PasswordSecretArn: string

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

`Database`-Eigenschaften

Uri(Erforderlich,String)

Die Adresse des Datenbankservers, der als Backend für die Slurm Buchhaltung verwendet wird. Dieser URI muss als formatiert sein host:port und darf kein Schema enthalten, wie z. mysql:// Der Host kann entweder eine IP-Adresse oder ein DNS-Name sein, der vom Hauptknoten aufgelöst werden kann. Wenn kein Port bereitgestellt wird, wird der MySQL Standardport 3306 AWS ParallelCluster verwendet.

AWS ParallelCluster bootet die Slurm Accounting-Datenbank in den Cluster und muss auf die Datenbank zugreifen.

Die Datenbank muss erreichbar sein, bevor Folgendes passiert:

Ein Cluster wird erstellt.
SlurmDie Kontoführung wird mit einem Cluster-Update aktiviert.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

UserName(Erforderlich,String)

Die Identität, die Slurm verwendet wird, um eine Verbindung mit der Datenbank herzustellen, Kontoführungsprotokolle zu schreiben und Abfragen durchzuführen. Der Benutzer muss sowohl Lese- als auch Schreibberechtigungen für die Datenbank haben.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

PasswordSecretArn(Erforderlich,String)

Der Amazon-Ressourcenname (ARN) des AWS Secrets Manager Geheimnisses, das das UserName Klartext-Passwort enthält. Dieses Passwort wird zusammen mit UserName Slurm Accounting zur Authentifizierung auf dem Datenbankserver verwendet.

Anmerkung

Wenn Sie mit der AWS Secrets Manager Konsole ein Geheimnis erstellen, achten Sie darauf, „Andere Art von Geheimnis“ und Klartext auszuwählen und nur den Passworttext in das Geheimnis aufzunehmen.
Sie können das Zeichen '#' nicht im Datenbankpasswort verwenden, da Slurm es in slurmdbd.conf nicht unterstützt.
Weitere Informationen zur Erstellung eines Geheimnisses finden Sie unter Create AWS Secrets Manager an Secret. AWS Secrets Manager

Ob der Benutzer dazu berechtigt PasswordSecretArn ist DescribeSecret, wird überprüft. PasswordSecretArnist gültig, wenn das angegebene Geheimnis existiert. Wenn die Benutzer-IAM-Richtlinie dies nicht beinhaltetDescribeSecret, PasswordSecretArn nicht validiert wird und eine Warnmeldung angezeigt wird. Weitere Informationen finden Sie unter AWS ParallelCluster pclusterGrundlegende Benutzerrichtlinie.

Wenn Sie ein Update PasswordSecretArn durchführen, muss die Rechenflotte gestoppt werden. Wenn sich der geheime Wert ändert und der geheime ARN sich nicht ändert, wird der Cluster nicht automatisch mit dem neuen Datenbankkennwort aktualisiert. Um den Cluster für den neuen geheimen Wert zu aktualisieren, müssen Sie den folgenden Befehl vom Hauptknoten aus ausführen, nachdem die Compute-Flotte gestoppt wurde.


$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh

Warnung

Wir empfehlen, das Datenbankkennwort nur zu ändern, wenn die Rechenflotte gestoppt ist, um den Verlust von Buchhaltungsdaten zu vermeiden.

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

DatabaseName(Optional,String)

Name der Datenbank auf dem Datenbankserver (definiert durch den Parameter Uri), die für Slurm Accounting verwendet werden soll.

Der Name der Datenbank kann Kleinbuchstaben, Zahlen und Unterstriche enthalten. Der Name darf nicht länger als 64 Zeichen sein.

Dieser Parameter ist dem StorageLoc Parameter von slurmdbd.conf zugeordnet.

Wenn DatabaseName nicht angegeben, ParallelCluster wird der Name des Clusters verwendet, um einen Wert für zu definieren. StorageLoc

Die Aktualisierung von DatabaseName ist zulässig, wobei die folgenden Überlegungen zu beachten sind:

Wenn eine Datenbank mit einem Namen noch DatabaseName nicht auf dem Datenbankserver existiert, erstellt slurmdbd sie. Es liegt in Ihrer Verantwortung, die neue Datenbank nach Bedarf neu zu konfigurieren (z. B. Hinzufügen der Buchhaltungseinheiten — Cluster, Konten, Benutzer QOSs, Assoziationen usw.).
Wenn auf dem Datenbankserver DatabaseName bereits eine Datenbank mit einem Namen existiert, wird slurmdbd sie für die Buchhaltungsfunktion verwenden. Slurm

Aktualisierungsrichtlinie: Die Rechenflotte muss gestoppt werden, damit diese Einstellung für ein Update geändert werden kann.

Anmerkung

Databasewird ab Version 3.3.0 hinzugefügt.

ExternalSlurmdbd

(Optional) Definiert die Einstellungen, um Slurm Accounting mit einem externen Slurmdbd-Server zu aktivieren. Weitere Informationen finden Sie unter Slurm Buchhaltung mit. AWS ParallelCluster


ExternalSlurmdbd:
  Host: string
  Port: integer

`ExternalSlurmdbd`-Eigenschaften

Host(Erforderlich,String)

Die Adresse des externen Slurmdbd-Servers für die Buchhaltung. Slurm Der Host kann entweder eine IP-Adresse oder ein DNS-Name sein, der vom Hauptknoten aufgelöst werden kann.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

Port(Fakultativ,Integer)

Der Port, auf den der Slurmdbd-Dienst hört. Der Standardwert ist 6819.

Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.

`Dns`

(Optional) Definiert die EinstellungenSlurm, die für den gesamten Cluster gelten.


Dns:
  DisableManagedDns: boolean
  HostedZoneId: string
  UseEc2Hostnames: boolean

`Dns`-Eigenschaften

DisableManagedDns(Optional,Boolean)

Fallstrue, werden die DNS-Einträge für den Cluster nicht erstellt und die Slurm Knotennamen können nicht aufgelöst werden.

AWS ParallelCluster Erstellt standardmäßig eine Route 53-Hosting-Zone, in der Knoten beim Start registriert werden. Der Standardwert ist false. Wenn auf gesetzt DisableManagedDns isttrue, wird die Hosting-Zone nicht von erstellt AWS ParallelCluster.

Informationen zur Verwendung dieser Einstellung zur Bereitstellung von Clustern in Subnetzen ohne Internetzugang finden Sie unterAWS ParallelCluster in einem einzigen Subnetz ohne Internetzugang.

Warnung

Für den ordnungsgemäßen Betrieb des Clusters ist ein System zur Namensauflösung erforderlich. Wenn auf gesetzt DisableManagedDns isttrue, müssen Sie ein System zur Namensauflösung bereitstellen. Um den Amazon EC2 EC2-Standard-DNS zu verwenden, setzen Sie ihn UseEc2Hostnames auftrue. Alternativ können Sie Ihren eigenen DNS-Resolver konfigurieren und sicherstellen, dass die Knotennamen registriert werden, wenn Instances gestartet werden. Sie können dies beispielsweise tun, indem Sie CustomActions/OnNodeStartkonfigurieren.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

HostedZoneId(Fakultativ,String)

Definiert eine benutzerdefinierte Route 53-Hosting-Zonen-ID, die für die DNS-Namensauflösung für den Cluster verwendet wird. Falls angegeben, werden Clusterknoten in der angegebenen Hosting-Zone AWS ParallelCluster registriert und keine verwaltete Hosting-Zone erstellt.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

UseEc2Hostnames(Optional,Boolean)

Fallstrue, sind Cluster-Rechenknoten mit dem standardmäßigen EC2-Hostnamen konfiguriert. Der Slurm NodeHostName wird ebenfalls mit diesen Informationen aktualisiert. Der Standardwert ist false.

Informationen zur Verwendung dieser Einstellung zur Bereitstellung von Clustern in Subnetzen ohne Internetzugang finden Sie unterAWS ParallelCluster in einem einzigen Subnetz ohne Internetzugang.

Anmerkung

Dieser Hinweis ist ab AWS ParallelCluster Version 3.3.0 nicht relevant.

Für AWS ParallelCluster unterstützte Versionen vor 3.3.0:

Wenn auf gesetzt UseEc2Hostnames isttrue, wird die Slurm-Konfigurationsdatei mit den Skripten AWS ParallelCluster prolog und epilog gesetzt:

prologwird ausgeführt, um Knoteninformationen zu /etc/hosts den Rechenknoten hinzuzufügen, wenn jeder Job zugewiesen ist.
epilogwird ausgeführt, um Inhalte zu bereinigen, die von geschrieben wurdenprolog.

Um benutzerdefinierte epilog Skripts prolog oder Skripts hinzuzufügen, fügen Sie sie den /opt/slurm/etc/pcluster/epilog.d/ Ordnern /opt/slurm/etc/pcluster/prolog.d/ oder hinzu.

Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

HeadNode Abschnitt

SharedStorage Abschnitt

Scheduling Abschnitt

Themen

Scheduling-Eigenschaften

Anmerkung

Anmerkung

AwsBatchQueues

AwsBatchQueues-Eigenschaften

Anmerkung

Networking

Networking-Eigenschaften

ComputeResources

ComputeResources-Eigenschaften

SlurmQueues

SlurmQueues-Eigenschaften

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

GpuVerhalten bei der Integritätsprüfung

Anmerkung

Networking

Networking-Eigenschaften

Anmerkung

Cluster-Updates zur Umstellung von der Verwendung eines einzelnen Subnetzes auf mehrere Subnetze:

Availability Zones und Cluster-Kapazitätsreservierungen, definiert in CapacityReservationResourceGroupArn:

Anmerkung

Warnung

Warnung

Warnung

Anmerkung

Image

ImageEigenschaften

Anmerkung

ComputeResources

Anmerkung

ComputeResources-Eigenschaften

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Warnung

Anmerkung

Warnung

Anmerkung

Anmerkung

Anmerkung

GpuVerhalten bei der Gesundheitsprüfung

Anmerkung

Anmerkung

Warnung

Anmerkung

Anmerkung

Anmerkung

ComputeSettings

ComputeSettings-Eigenschaften

CustomActions

CustomActionsEigenschaften

Anmerkung

Iam

IamEigenschaften

SlurmSettings

SlurmSettingsEigenschaften

Anmerkung

Warnung

Anmerkung

Warnung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Database

Database-Eigenschaften

`Scheduling` Abschnitt

`Scheduling`-Eigenschaften

`AwsBatchQueues`

`AwsBatchQueues`-Eigenschaften

`Networking`

`Networking`-Eigenschaften

`ComputeResources`

`ComputeResources`-Eigenschaften

`SlurmQueues`

`SlurmQueues`-Eigenschaften

`Gpu`Verhalten bei der Integritätsprüfung

`Networking`

`Networking`-Eigenschaften

`Image`

`Image`Eigenschaften

`ComputeResources`

`ComputeResources`-Eigenschaften

`Gpu`Verhalten bei der Gesundheitsprüfung

`ComputeSettings`

`ComputeSettings`-Eigenschaften

`CustomActions`

`CustomActions`Eigenschaften

`Iam`

`Iam`Eigenschaften

`SlurmSettings`

`SlurmSettings`Eigenschaften

`Database`

`Database`-Eigenschaften

`ExternalSlurmdbd`-Eigenschaften

`Dns`

`Dns`-Eigenschaften