Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Scheduling Abschnitt
(Erforderlich) Definiert den Job Scheduler, der im Cluster verwendet wird, und die Recheninstanzen, die der Job Scheduler verwaltet. Sie können entweder den Slurm oder AWS Batch -Scheduler verwenden. Jeder unterstützt einen anderen Satz von Einstellungen und Eigenschaften.
Scheduling: Scheduler: slurm ScalingStrategy:stringSlurmSettings: MungeKeySecretArn:stringScaledownIdletime:integerQueueUpdateStrategy:stringEnableMemoryBasedScheduling:booleanCustomSlurmSettings:[dict]CustomSlurmSettingsIncludeFile:stringDatabase: Uri:stringUserName:stringPasswordSecretArn:stringDatabaseName:stringExternalSlurmdbd:booleanHost:stringPort:integerDns: DisableManagedDns:booleanHostedZoneId:stringUseEc2Hostnames:booleanSlurmQueues: - Name:stringComputeSettings: LocalStorage: RootVolume: Size:integerEncrypted:booleanVolumeType:stringIops:integerThroughput:integerEphemeralVolume: MountDir:stringCapacityReservationTarget: CapacityReservationId:stringCapacityReservationResourceGroupArn:stringCapacityType:stringAllocationStrategy:stringJobExclusiveAllocation:booleanCustomSlurmSettings:dictTags: - Key:stringValue:stringHealthChecks: Gpu: Enabled:booleanNetworking: SubnetIds: -stringAssignPublicIp:booleanSecurityGroups: -stringAdditionalSecurityGroups: -stringPlacementGroup: Enabled:booleanId:stringName:stringProxy: HttpProxyAddress:stringComputeResources: - Name:stringInstanceType:stringInstances: - InstanceType:stringMinCount:integerMaxCount:integerDynamicNodePriority:integerStaticNodePriority:integerSpotPrice:floatDisableSimultaneousMultithreading:booleanSchedulableMemory:integerHealthChecks: Gpu: Enabled:booleanEfa: Enabled:booleanGdrSupport:booleanCapacityReservationTarget: CapacityReservationId:stringCapacityReservationResourceGroupArn:stringNetworking: PlacementGroup: Enabled:booleanName:stringCustomSlurmSettings:dictTags: - Key:stringValue:stringCustomActions: OnNodeStart: Sequence: - Script:stringArgs: -stringScript:stringArgs: -stringOnNodeConfigured: Sequence: - Script:stringArgs: -stringScript:stringArgs: -stringIam: InstanceProfile:stringInstanceRole:stringS3Access: - BucketName:stringEnableWriteAccess:booleanKeyName:stringAdditionalIamPolicies: - Policy:stringImage: CustomAmi:string
Scheduling: Scheduler: awsbatch AwsBatchQueues: - Name:stringCapacityType:stringNetworking: SubnetIds: -stringAssignPublicIp:booleanSecurityGroups: -stringAdditionalSecurityGroups: -stringComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:stringInstanceTypes: -stringMinvCpus:integerDesiredvCpus:integerMaxvCpus:integerSpotBidPercentage:float
Scheduling-Eigenschaften
Scheduler(Erforderlich,String)-
Gibt den Typ des verwendeten Schedulers an. Unterstützte Werte sind
slurmundawsbatch.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
Anmerkung
awsbatchunterstützt nur dasalinux2Betriebssystem und diex86_64Plattform. ScalingStrategy(Fakultativ,String)-
Ermöglicht es Ihnen, auszuwählen, wie dynamische Slurm Knoten skaliert werden sollen. Unterstützte Werte sind
all-or-nothing,greedy-all-or-nothingundbest-effortDer Standardwert istall-or-nothing.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
Die Skalierungsstrategie gilt nur für Knoten, die von Slurm wieder aufgenommen werden sollen, nicht für Knoten, die irgendwann schon laufen.
-
all-or-nothingDiese Strategie folgt strikt einer all-or-nothing-approach, die darauf abzielt, inaktive Instanzen am Ende des Skalierungsprozesses zu vermeiden. Sie arbeitet auf einer all-or-nothing Basis, was bedeutet, dass sie entweder vollständig oder gar nicht skaliert wird. Beachten Sie, dass aufgrund vorübergehend gestarteter Instances zusätzliche Kosten anfallen können, wenn Jobs mehr als 500 Knoten erfordern oder sich über mehrere Rechenressourcen erstrecken. Diese Strategie hat den niedrigsten Durchsatz unter den drei möglichen Skalierungsstrategien. Die Skalierungszeit hängt von der Anzahl der Jobs ab, die bei der Ausführung des Slurm Resume-Programms eingereicht wurden. Außerdem können Sie nicht weit über das Standardlimit für RunInstances Ressourcenkonten pro Ausführung hinaus skalieren, das standardmäßig bei 1000 Instanzen liegt. Weitere Informationen finden Sie in der Dokumentation zur Drosselung der Amazon EC2 API -
greedy-all-or-nothingÄhnlich wie bei der all-or-nothing Strategie zielt sie darauf ab, inaktive Instances nach der Skalierung zu vermeiden. Diese Strategie ermöglicht eine vorübergehende Überskalierung während des Skalierungsprozesses, um einen höheren Durchsatz als bei der all-or-nothing Methode zu erreichen, hat aber auch dasselbe Skalierungslimit von 1000 Instanzen wie beim RunInstances Ressourcenkontolimit. -
best-effortBei dieser Strategie wird ein hoher Durchsatz priorisiert, auch wenn dies bedeutet, dass einige Instanzen am Ende des Skalierungsprozesses möglicherweise inaktiv sind. Es wird versucht, so viele Knoten zuzuweisen, wie von den Jobs angefordert werden, aber es besteht die Möglichkeit, dass nicht die gesamte Anfrage erfüllt wird. Im Gegensatz zu den anderen Strategien können beim Best-Effort-Ansatz mehr Instanzen als das RunInstances Standardlimit akkumuliert werden, allerdings auf Kosten ungenutzter Ressourcen während der Ausführung mehrerer Skalierungsprozesse.
-
Jede Strategie ist so konzipiert, dass sie unterschiedlichen Skalierungsanforderungen gerecht wird, sodass Sie eine auswählen können, die Ihren spezifischen Anforderungen und Einschränkungen entspricht.
AwsBatchQueues
(Optional) Die AWS Batch Warteschlangeneinstellungen. Es wird nur eine Warteschlange unterstützt. Wenn auf gesetzt Scheduleristawsbatch, ist dieser Abschnitt erforderlich. Weitere Informationen zum awsbatch Scheduler finden Sie unter Netzwerkkonfiguration undVerwenden des AWS Batch (awsbatch) -Schedulers mit AWS ParallelCluster.
AwsBatchQueues: - Name:stringCapacityType:stringNetworking: SubnetIds: -stringAssignPublicIp:booleanSecurityGroups: -stringAdditionalSecurityGroups: -stringComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:stringInstanceTypes: -stringMinvCpus:integerDesiredvCpus:integerMaxvCpus:integerSpotBidPercentage:float
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
AwsBatchQueues-Eigenschaften
Name(Erforderlich,String)-
Der Name der AWS Batch Warteschlange.
Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
CapacityType(Fakultativ,String)-
Der Typ der Rechenressourcen, die die AWS Batch Warteschlange verwendet. Unterstützte Werte sind
ONDEMAND,SPOToderCAPACITY_BLOCK. Der Standardwert istONDEMAND.Anmerkung
Wenn Sie diese Option festlegen
SPOT,CapacityTypemuss Ihr Konto eineAWSServiceRoleForEC2Spotdienstbezogene Rolle enthalten. Sie können diese Rolle mit dem folgenden AWS CLI Befehl erstellen.$aws iam create-service-linked-role --aws-service-name spot.amazonaws.com.rproxy.govskope.caWeitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon EC2 Amazon-Benutzerhandbuch für Linux-Instances.
Networking
(Erforderlich) Definiert die Netzwerkkonfiguration für die AWS Batch Warteschlange.
Networking: SubnetIds: -stringAssignPublicIp:booleanSecurityGroups: -stringAdditionalSecurityGroups: -string
Networking-Eigenschaften
SubnetIds(Erforderlich,[String])-
Gibt die ID eines vorhandenen Subnetzes an, in dem die AWS Batch Warteschlange bereitgestellt werden soll. Derzeit wird nur ein Subnetz unterstützt.
AssignPublicIp(Fakultativ,String)-
Erzeugt oder weist den Knoten in der AWS Batch Warteschlange eine öffentliche IP-Adresse zu. Unterstützte Werte sind
trueundfalse. Die Standardeinstellung hängt von dem Subnetz ab, das Sie angegeben haben.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
SecurityGroups(Optional,[String])-
Liste der Sicherheitsgruppen, die die AWS Batch Warteschlange verwendet. Wenn Sie keine Sicherheitsgruppen angeben, AWS ParallelCluster erstellt neue Sicherheitsgruppen.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
AdditionalSecurityGroups(Optional,[String])-
Liste der Sicherheitsgruppen, die die AWS Batch Warteschlange verwendet.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
ComputeResources
(Erforderlich) Definiert die ComputeResources Konfiguration für die AWS Batch Warteschlange.
ComputeResources: # this maps to a Batch compute environment (initially we support only 1) - Name:stringInstanceTypes: -stringMinvCpus:integerDesiredvCpus:integerMaxvCpus:integerSpotBidPercentage:float
ComputeResources-Eigenschaften
Name(Erforderlich,String)-
Der Name der AWS Batch Warteschlangencomputer-Umgebung.
InstanceTypes(Erforderlich,[String])-
Das Array der Instanztypen für die AWS Batch Rechenumgebung. Alle Instanztypen müssen die
x86_64Architektur verwenden. MinvCpus(Fakultativ,Integer)-
Die Mindestanzahl VCPUs , die eine AWS Batch Rechenumgebung verwenden kann.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
DesiredVcpus(Fakultativ,Integer)-
Die gewünschte Anzahl von VCPUs in der AWS Batch Rechenumgebung. AWS Batch passt diesen Wert zwischen
MinvCpusundMaxvCpusbasierend auf der Nachfrage in der Auftragswarteschlange an.Aktualisierungsrichtlinie: Diese Einstellung wird während eines Updates nicht analysiert.
MaxvCpus(Fakultativ,Integer)-
Die maximale Anzahl von VCPUs für die AWS Batch Rechenumgebung. Sie können diesen Wert nicht auf einen Wert setzen, der niedriger ist als
DesiredVcpus.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates nicht verringert werden.
SpotBidPercentage(Fakultativ,Float)-
Der maximale Prozentsatz des On-Demand-Preises für den Instance-Typ, den ein Amazon EC2 Spot-Instance-Preis erreichen kann, bevor Instances gestartet werden. Der Standardwert ist
100(100%). Der unterstützte Bereich ist1-100.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
SlurmQueues
(Optional) Einstellungen für die Slurm Warteschlange. Wenn auf gesetzt Scheduleristslurm, ist dieser Abschnitt erforderlich.
SlurmQueues: - Name:stringComputeSettings: LocalStorage: RootVolume: Size:integerEncrypted:booleanVolumeType:stringIops:integerThroughput:integerEphemeralVolume: MountDir:stringCapacityReservationTarget: CapacityReservationId:stringCapacityReservationResourceGroupArn:stringCapacityType:stringAllocationStrategy:stringJobExclusiveAllocation:booleanCustomSlurmSettings:dictTags: - Key:stringValue:stringHealthChecks: Gpu: Enabled:booleanNetworking: SubnetIds: -stringAssignPublicIp:booleanSecurityGroups: -stringAdditionalSecurityGroups: -stringPlacementGroup: Enabled:booleanId:stringName:stringProxy: HttpProxyAddress:stringComputeResources: - Name:stringInstanceType:stringInstances: - InstanceType:stringMinCount:integerMaxCount:integerDynamicNodePriority:integerStaticNodePriority:integerSpotPrice:floatDisableSimultaneousMultithreading:booleanSchedulableMemory:integerHealthChecks: Gpu: Enabled:booleanEfa: Enabled:booleanGdrSupport:booleanCapacityReservationTarget: CapacityReservationId:stringCapacityReservationResourceGroupArn:stringNetworking: PlacementGroup: Enabled:booleanName:stringCustomSlurmSettings:dictTags: - Key:stringValue:stringCustomActions: OnNodeStart: Sequence: - Script:stringArgs: -stringScript:stringArgs: -stringOnNodeConfigured: Sequence: - Script:stringArgs: -stringScript:stringArgs: -stringIam: InstanceProfile:stringInstanceRole:stringS3Access: - BucketName:stringEnableWriteAccess:booleanKeyName:stringAdditionalIamPolicies: - Policy:stringImage: CustomAmi:string
SlurmQueues-Eigenschaften
Name(Erforderlich,String)-
Der Name der Slurm Warteschlange.
Anmerkung
Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität
Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
CapacityReservationTarget-
Anmerkung
CapacityReservationTargetwird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.CapacityReservationTarget: CapacityReservationId:stringCapacityReservationResourceGroupArn:stringGibt die On-Demand-Kapazitätsreservierung für die Rechenressourcen der Warteschlange an.
CapacityReservationId(Optional,String)-
Die ID der vorhandenen Kapazitätsreservierung, die für die Rechenressourcen der Warteschlange als Ziel verwendet werden soll. Die ID kann sich auf ein ODCR oder einen Kapazitätsblock für ML beziehen.
Die Reservierung muss dieselbe Plattform verwenden, die die Instanz verwendet. Wenn Ihre Instances beispielsweise ausgeführt werden
rhel8, muss Ihre Kapazitätsreservierung auf der Red Hat Enterprise Linux-Plattform laufen. Weitere Informationen finden Sie unter Unterstützte Plattformen im EC2 Amazon-Benutzerhandbuch für Linux-Instances.Anmerkung
Wenn Sie diese Einstellung Instancesin die Cluster-Konfiguration einbeziehen, müssen Sie diese
CapacityReservationIdEinstellung für die Warteschlangenebene aus der Konfiguration ausschließen. CapacityReservationResourceGroupArn(Optional,String)-
Der Amazon-Ressourcenname (ARN) der Ressourcengruppe, die als serviceverknüpfte Gruppe von Kapazitätsreservierungen für die Rechenressourcen der Warteschlange dient. AWS ParallelCluster identifiziert und verwendet die am besten geeignete Kapazitätsreservierung aus der Ressourcengruppe auf der Grundlage der folgenden Bedingungen:
-
Wenn in SlurmQueues/Networkingoder SlurmQueues//aktiviert
PlacementGroupist Networking, wird eine Ressourcengruppe AWS ParallelCluster ausgewählt, die auf den Instanztyp abzielt, undPlacementGroupfür eine Rechenressource, falls die Rechenressource vorhanden ist. ComputeResourcesDas
PlacementGroupmuss auf einen der Instanztypen abzielen, der in definiert ist ComputeResources. -
Wenn es in SlurmQueues/Networkingoder SlurmQueues//
PlacementGroupnicht aktiviert ist Networking, AWS ParallelCluster wird eine Ressourcengruppe ausgewählt, die nur auf den Instanztyp einer Rechenressource abzielt, sofern die Rechenressource existiert. ComputeResources
Die Ressourcengruppe muss mindestens einen ODCR für jeden Instanztyp haben, der in einer Availability Zone für alle Rechenressourcen und Availability Zones der Warteschlange reserviert ist. Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).
Weitere Informationen zu den Konfigurationsanforderungen für mehrere Subnetze finden Sie unter Networking/. SubnetIds
Anmerkung
In AWS ParallelCluster Version 3.4.0 wurden mehrere Availability Zones hinzugefügt.
-
CapacityType(Fakultativ,String)-
Der Typ der Rechenressourcen, die die Slurm Warteschlange verwendet. Unterstützte Werte sind
ONDEMAND,SPOToderCAPACITY_BLOCK. Der Standardwert istONDEMAND.Anmerkung
Wenn Sie das
CapacityTypeauf setzenSPOT, muss Ihr Konto über eineAWSServiceRoleForEC2Spotdienstbezogene Rolle verfügen. Sie können den folgenden AWS CLI Befehl verwenden, um diese Rolle zu erstellen.$aws iam create-service-linked-role --aws-service-name spot.amazonaws.com.rproxy.govskope.caWeitere Informationen finden Sie unter Service-verknüpfte Rolle für Spot-Instance-Anfragen im Amazon EC2 Amazon-Benutzerhandbuch für Linux-Instances.
AllocationStrategy(Fakultativ,String)-
Geben Sie die Zuweisungsstrategie für alle Rechenressourcen an, die in definiert sind Instances.
Zulässige Werte:
lowest-price|capacity-optimized|price-capacity-optimized|prioritized|capacity-optimized-prioritizedCapacityType Zulässige Strategien AUF ABRUF niedrigster Preis, priorisiert STELLE niedrigster Preis, kapazitätsoptimiert, price-capacity-optimized capacity-optimized-prioritized CAPACITY_BLOCK Nicht unterstützt — AllocationStrategy kann nicht konfiguriert werden Standard:
lowest-pricelowest-price-
-
Wenn Sie dies verwenden
CapacityType = ONDEMAND, verwendet Amazon EC2 Fleet den Preis, um die Bestellung zu bestimmen, und startet zuerst die Instances mit dem niedrigsten Preis. -
Wenn Sie dies verwenden
CapacityType = SPOT, startet Amazon EC2 Fleet Instances aus dem Spot-Instance-Pool mit dem niedrigsten Preis, der über verfügbare Kapazität verfügt. Wenn die Kapazität eines Pools knapp wird, bevor er Ihre erforderliche Kapazität erreicht, erfüllt Amazon EC2 Fleet Ihre Anfrage, indem es Instances für Sie startet. Insbesondere startet Amazon EC2 Fleet Instances aus dem Spot-Instance-Pool mit dem niedrigsten Preis, der über verfügbare Kapazität verfügt. Amazon EC2 Fleet kann Spot-Instances aus mehreren verschiedenen Pools starten. -
Wenn Sie festlegen
CapacityType = CAPACITY_BLOCK, gibt es keine Zuweisungsstrategien, daher kann derAllocationStrategyParameter nicht konfiguriert werden.
-
capacity-optimized-
-
Wenn Sie festlegen
CapacityType = ONDEMAND,capacity-optimizedist es nicht verfügbar. -
Wenn Sie diese Option festlegen
CapacityType = SPOT, startet Amazon EC2 Fleet Instances aus Spot-Instance-Pools mit optimaler Kapazität für die Anzahl der zu startenden Instances.
-
price-capacity-optimized-
-
Wenn Sie festlegen
CapacityType = ONDEMAND,capacity-optimizedist es nicht verfügbar. -
Wenn Sie diese Option festlegen
CapacityType = SPOT, identifiziert Amazon EC2 Fleet die Pools mit der höchsten Kapazitätsverfügbarkeit für die Anzahl der Instances, die gestartet werden. Das bedeutet, dass wir Spot Instances aus den Pools anfordern werden, von denen wir glauben, dass die Wahrscheinlichkeit einer kurzfristigen Unterbrechung am geringsten ist. Amazon EC2 Fleet fordert dann Spot-Instances aus den Pools mit dem niedrigsten Preis an.
-
prioritized-
-
Wenn Sie diese Option festlegen
CapacityType = ONDEMAND, beachtet Amazon EC2 Fleet die Prioritätsreihenfolge, die AWS ParallelCluster für die LaunchTemplate Überschreibungen gilt, wenn mehrere Subnetze angegeben sind. AWS ParallelCluster leitet die Überschreibungpriorityvon der Position des Zielsubnetzes ab,SlurmQueues/Networking/SubnetIdswobei das erste Subnetz die höchste Priorität erhält. Die Prioritäten werden AWS ParallelCluster in absteigender Reihenfolge von festgelegtSlurmQueues/Networking/SubnetIds, SubnetId wobei die erste Subnetz-ID die höchste Priorität und die letzte Subnetz-ID die niedrigste Priorität hat. -
Wenn Sie festlegen, ist es nicht
CapacityType = SPOTverfügbarprioritized.
-
capacity-optimized-prioritized-
-
Wenn du es eingestellt hast
CapacityType = ONDEMAND,capacity-optimized-prioritizedist es nicht verfügbar. -
Wenn Sie diese Option festlegen
CapacityType = SPOT, optimiert Amazon EC2 Fleet zuerst die Kapazität und wendet dann nach bestem Wissen und Gewissen die Prioritätsreihenfolge an, die den AWS ParallelCluster Überschreibungen zugewiesen wird. LaunchTemplate Die Prioritäten werden AWS ParallelCluster in absteigender Reihenfolge von festgelegtSlurmQueues/Networking/SubnetIds, SubnetId wobei die erste SubnetID die höchste Priorität und die letzte SubnetID die niedrigste Priorität hat. Alle Overrides, die auf dasselbe Subnetz abzielen, erhalten denselben Prioritätswert.
-
Anmerkung
AllocationStrategywird ab AWS ParallelCluster Version 3.3.0 unterstützt.Neu in 3.14.0:
prioritized(für On-Demand) undcapacity-optimized-prioritized(für Spot). JobExclusiveAllocation(Fakultativ,)String-
Wenn auf gesetzt
true, ist das SlurmOverSubscribePartitionsflag auf gesetztEXCLUSIVE. BeiOverSubscribe=EXCLUSIVEhaben Jobs in der Partition exklusiven Zugriff auf alle zugewiesenen Knoten. Weitere Informationen finden Sie unter EXCLUSIVEin der Slurm Dokumentation. Zulässige Werte:
true|falseStandard:
falseAktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
JobExclusiveAllocationwird ab AWS ParallelCluster Version 3.7.0 unterstützt. CustomSlurmSettings(Fakultativ,Dict)-
Definiert die Konfigurationseinstellungen für die benutzerdefinierte Slurm Partition (Warteschlange).
Gibt ein Wörterbuch mit Schlüssel-Wert-Paaren für benutzerdefinierte Slurm Konfigurationsparameter an, die für Warteschlangen (Partitionen) gelten.
Jedes einzelne Schlüssel-Wert-Paar, z. B.
Param1: Value1, wird separat am Ende der Slurm Partitionskonfigurationszeile im Format hinzugefügt.Param1=Value1Sie können nur Slurm Konfigurationsparameter angeben, die nicht auf der Sperrliste stehen.
CustomSlurmSettingsHinweise zu Slurm Konfigurationsparametern auf der Sperrliste finden Sie unter. Auf der Denim-Liste Slurm Konfigurationsparameter für CustomSlurmSettingsAWS ParallelCluster prüft nur, ob ein Parameter auf einer Sperrliste steht. AWS ParallelCluster validiert die Syntax oder Semantik Ihrer benutzerdefinierten Slurm Konfigurationsparameter nicht. Es liegt in Ihrer Verantwortung, Ihre benutzerdefinierten Slurm Konfigurationsparameter zu validieren. Ungültige benutzerdefinierte Slurm Konfigurationsparameter können zu Slurm Daemon-Ausfällen führen, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.
Weitere Hinweise zum Angeben von benutzerdefinierten Slurm Konfigurationsparametern mit finden Sie AWS ParallelCluster unterSlurm Anpassung der Konfiguration.
Weitere Informationen zu Slurm Konfigurationsparametern finden Sie in der Dokumentation unter slurm.conf.
Slurm Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster Tags(Optional, [Zeichenfolge])-
Eine Liste von Tag-Schlüssel-Wert-Paaren. ComputeResourceTags überschreiben doppelte Tags, die in Tags Abschnitt oder in
SlurmQueues/angegeben sind.TagsKey(Optional,String)-
Der Tag-Schlüssel.
Value(Fakultativ,String)-
Der Tag-Wert.
HealthChecks(Fakultativ)-
Geben Sie Integritätsprüfungen für Rechenknoten für alle Rechenressourcen in der Warteschlange an.
Gpu(Fakultativ)-
Geben Sie GPU-Zustandsprüfungen für alle Rechenressourcen in einer Warteschlange an.
Anmerkung
AWS ParallelCluster unterstützt
HealthChecks/nichtGpuin Knoten, diealinux2ARM-Betriebssysteme verwenden. Diese Plattformen unterstützen den NVIDIA Data Center GPU Manager (DCGM)nicht. Es wird davon abgeraten, GPU-Zustandsprüfungen zu aktivieren, wenn Instance-Typen verwendet werden, deren gesamte GPU-Speichergröße höher als 327680 MiB ist.
EnabledBoolean(Optional,)-
Gibt an AWS ParallelCluster , ob GPU-Zustandsprüfungen auf Rechenknoten durchgeführt werden. Der Standardwert ist
false.
GpuVerhalten bei der Integritätsprüfung-
Falls
Gpu/auf gesetztEnabledisttrue, werden AWS ParallelCluster GPU-Integritätsprüfungen für Rechenressourcen in der Warteschlange durchgeführt. -
Bei der
GpuIntegritätsprüfung werden GPU-Integritätsprüfungen für Rechenressourcen durchgeführt, um zu verhindern, dass Jobs auf Knoten mit einer herabgesetzten GPU gesendet werden. -
Wenn ein Rechenknoten eine
GpuZustandsprüfung nicht besteht, ändert sich der Status des Rechenknotens aufDRAIN. Neue Jobs werden auf diesem Knoten nicht gestartet. Bestehende Jobs werden bis zum Abschluss ausgeführt. Wenn alle laufenden Jobs abgeschlossen sind, wird der Rechenknoten beendet, wenn es sich um einen dynamischen Knoten handelt, und er wird ersetzt, wenn es sich um einen statischen Knoten handelt. -
Die Dauer der
GpuZustandsprüfung hängt vom ausgewählten Instanztyp, der Anzahl der GPUs Instanzen, dem gesamten GPU-Speicher und der Anzahl derGpuIntegritätsprüfungsziele ab (entspricht der Anzahl der Job-GPU-Ziele). Bei einem p4d.24xlarge beträgt die typische Dauer beispielsweise 3 Minuten. -
Wenn die
GpuIntegritätsprüfung auf einer Instanz ausgeführt wird, die nicht unterstützt wird, wird sie beendet und der Job wird auf dem Rechenknoten ausgeführt. Wenn eine Instanz beispielsweise keine GPU hat oder, wenn eine Instanz über eine GPU verfügt, es sich aber nicht um eine NVIDIA-GPU handelt, wird die Integritätsprüfung beendet und der Job wird auf dem Rechenknoten ausgeführt. Es GPUs werden nur NVIDIA unterstützt. -
Die
GpuIntegritätsprüfung verwendet dasdcgmiTool, um Integritätsprüfungen an einem Knoten durchzuführen, und umfasst die folgenden Schritte:Wenn die
GpuZustandsprüfung in einem Knoten beginnt:-
Es erkennt, ob die
nvidia-fabricmanagerDienstenvidia-dcgmund ausgeführt werden. -
Wenn diese Dienste nicht ausgeführt werden, werden sie durch die
GpuIntegritätsprüfung gestartet. -
Es erkennt, ob der Persistenzmodus aktiviert ist.
-
Wenn der Persistenzmodus nicht aktiviert ist, wird er durch die
GpuIntegritätsprüfung aktiviert.
Am Ende der Zustandsprüfung werden diese Dienste und Ressourcen durch die
GpuZustandsprüfung in ihren ursprünglichen Zustand zurückversetzt. -
-
Wenn der Job einer bestimmten Gruppe von Knoten zugewiesen ist GPUs, wird die
GpuIntegritätsprüfung nur für diese bestimmte Gruppe ausgeführt. Andernfalls wird dieGpuIntegritätsprüfung für alle GPUs Knoten ausgeführt. -
Wenn ein Rechenknoten zwei oder mehr
GpuIntegritätsprüfungsanfragen gleichzeitig empfängt, wird nur die erste Zustandsprüfung ausgeführt und die anderen werden übersprungen. Dies ist auch bei Zustandsprüfungen des Zielknotens GPUs der Fall. Sie können in den Protokolldateien nach weiteren Informationen zu dieser Situation suchen. -
Das Protokoll der Integritätsprüfung für einen bestimmten Rechenknoten ist in der
/var/log/parallelcluster/slurm_health_check.logDatei verfügbar. Die Datei ist in Amazon CloudWatch in der CloudWatch Cluster-Protokollgruppe verfügbar. Dort finden Sie:-
Einzelheiten zu der Aktion, die im Rahmen der
GpuIntegritätsprüfung ausgeführt wurde, einschließlich der Aktivierung und Deaktivierung von Diensten und des Persistenzmodus. -
Die GPU-Kennung, die serielle ID und die UUID.
-
Die Ausgabe des Integritätschecks.
-
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
HealthCheckswird ab AWS ParallelCluster Version 3.6.0 unterstützt.
Networking
(Erforderlich) Definiert die Netzwerkkonfiguration für die Slurm Warteschlange.
Networking: SubnetIds: -stringAssignPublicIp:booleanSecurityGroups: -stringAdditionalSecurityGroups: -stringPlacementGroup: Enabled:booleanId:stringName:stringProxy: HttpProxyAddress:string
Networking-Eigenschaften
SubnetIds(Erforderlich,[String])-
Die Anzahl IDs der vorhandenen Subnetze, in denen Sie die Slurm Warteschlange bereitstellen.
Wenn Sie Instanztypen in SlurmQueues/ComputeResources/konfigurieren InstanceType, können Sie nur ein Subnetz definieren.
Wenn Sie Instanztypen in SlurmQueues/ComputeResources/konfigurieren Instances, können Sie ein einzelnes Subnetz oder mehrere Subnetze definieren.
Wenn Sie mehrere Subnetze verwenden, müssen sich alle für eine Warteschlange definierten Subnetze in derselben VPC befinden, wobei sich jedes Subnetz in einer separaten Availability Zone (AZ) befindet.
Nehmen wir beispielsweise an, Sie definieren Subnetz-1 und Subnetz-2 für Ihre Warteschlange.
subnet-1undsubnet-2können nicht beide in AZ-1 sein.subnet-1kann in AZ-1 sein undsubnet-2kann in AZ-2 sein.Wenn Sie nur einen Instance-Typ konfigurieren und mehrere Subnetze verwenden möchten, definieren Sie Ihren Instance-Typ in
Instancesund nicht.InstanceTypeDefinieren Sie beispielsweise
ComputeResources/Instances/InstanceType=instance.typestattComputeResources/InstanceType=instance.type.Anmerkung
Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt.
Die Verwendung mehrerer Availability Zones kann zu einer Erhöhung der Speichernetzwerklatenz und zu zusätzlichen Kosten für die Datenübertragung zwischen den einzelnen AZ-Datenbanken führen. Dies könnte beispielsweise der Fall sein, wenn eine Instance auf einen Dateispeicher zugreift, der sich in einer anderen AZ befindet. Weitere Informationen finden Sie unter Datenübertragung innerhalb derselben AWS-Region
. Cluster-Updates zur Umstellung von der Verwendung eines einzelnen Subnetzes auf mehrere Subnetze:
-
Angenommen, die Subnetzdefinition eines Clusters ist mit einem einzigen Subnetz und einem FSx für Lustre AWS ParallelCluster verwalteten Dateisystem definiert. Dann können Sie diesen Cluster nicht direkt mit einer aktualisierten Subnetz-ID-Definition aktualisieren. Um das Cluster-Update durchzuführen, müssen Sie zuerst das verwaltete Dateisystem in ein externes Dateisystem ändern. Weitere Informationen finden Sie unter Konvertiert AWS ParallelCluster verwalteten Speicher in externen Speicher.
-
Nehmen wir an, die Subnetzdefinition eines Clusters ist mit einem einzelnen Subnetz und einem externen Amazon EFS-Dateisystem definiert, wenn EFS-Mount-Ziele nicht für alle der AZs mehreren Subnetze existieren, die hinzugefügt werden sollen. Dann können Sie diesen Cluster nicht direkt mit einer aktualisierten Subnetz-ID-Definition aktualisieren. Um den Cluster zu aktualisieren oder einen Cluster zu erstellen, müssen Sie zunächst alle Mount-Ziele für alle der AZs definierten mehreren Subnetze erstellen.
Availability Zones und Cluster-Kapazitätsreservierungen, definiert in CapacityReservationResourceGroupArn:
-
Sie können keinen Cluster erstellen, wenn es keine Überschneidung zwischen den Instanztypen und Verfügbarkeitszonen, die von der definierten Ressourcengruppe für die Kapazitätsreservierung abgedeckt werden, und den für die Warteschlange definierten Instanztypen und Verfügbarkeitszonen gibt.
-
Sie können einen Cluster erstellen, wenn es eine teilweise Überschneidung zwischen den Instanztypen und Verfügbarkeitszonen, die von der definierten Ressourcengruppe für die Kapazitätsreservierung abgedeckt werden, und den für die Warteschlange definierten Instanztypen und Verfügbarkeitszonen gibt. AWS ParallelCluster sendet in diesem Fall eine Warnmeldung über die teilweise Überlappung.
-
Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).
Anmerkung
In AWS ParallelCluster Version 3.4.0 wurden mehrere Availability Zones hinzugefügt.
Warnung
Diese Warnung gilt für alle AWS ParallelCluster 3.x.y-Versionen vor Version 3.3.1. AWS ParallelCluster Version 3.3.1 ist nicht betroffen, wenn dieser Parameter geändert wird.
Für AWS ParallelCluster 3 Versionen vor Version 3.3.1:
Wenn Sie diesen Parameter ändern und einen Cluster aktualisieren, wird ein neues FSx für Lustre verwaltetes Dateisystem erstellt und das bestehende für Lustre verwaltete FSx Dateisystem gelöscht, ohne dass die vorhandenen Daten erhalten bleiben. Dies führt zu Datenverlust. Bevor Sie fortfahren, stellen Sie sicher, dass Sie die Daten aus dem vorhandenen FSx for Lustre-Dateisystem sichern, wenn Sie Daten beibehalten möchten. Weitere Informationen finden Sie unter Arbeiten mit Backups im FSx for Lustre-Benutzerhandbuch.
Wenn ein neuer Subnetzwert hinzugefügt wird, Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Wenn ein Subnetzwert entfernt wird, Richtlinie aktualisieren: Die Rechenflotte muss gestoppt oder QueueUpdateStrategyeingerichtet sein, damit diese Einstellung für ein Update geändert werden kann.
-
AssignPublicIp(Fakultativ,String)-
Erzeugt oder weist den Knoten in der Slurm Warteschlange eine öffentliche IP-Adresse zu. Unterstützte Werte sind
trueundfalse. Das von Ihnen angegebene Subnetz bestimmt den Standardwert. Ein Subnetz mit öffentlicher IPs Standardeinstellung für die Zuweisung öffentlicher IP-Adressen.Wenn Sie einen hpc6id Instanztyp p4d oder einen anderen Instanztyp mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte definieren, müssen Sie HeadNode/Networking/ElasticIpauf festlegen, um öffentlichen Zugriff
truezu gewähren. AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet wurden. In diesem Fall empfehlen wir, ein NAT-Gateway zu verwenden, um öffentlichen Zugriff auf die Cluster-Rechenknoten zu gewähren. Stellen Sie in diesem FallAssignPublicIpauf einfalse. Weitere Informationen zu IP-Adressen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2 Amazon-Benutzerhandbuch für Linux-Instances.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
SecurityGroups(Optional,[String])-
Eine Liste von Sicherheitsgruppen, die für die Slurm Warteschlange verwendet werden sollen. Wenn keine Sicherheitsgruppen angegeben sind, AWS ParallelCluster erstellt es Sicherheitsgruppen für Sie.
Stellen Sie sicher, dass die Sicherheitsgruppen für Ihre SharedStorageSysteme korrekt konfiguriert sind.
Warnung
Diese Warnung gilt für alle 3.
x.yAWS ParallelCluster Versionen vor Version 3.3.0. AWS ParallelCluster Version 3.3.0 ist nicht betroffen, wenn dieser Parameter geändert wird.Für AWS ParallelCluster 3 Versionen vor Version 3.3.0:
Wenn Sie diesen Parameter ändern und einen Cluster aktualisieren, wird ein neues FSx für Lustre verwaltetes Dateisystem erstellt und das bestehende für Lustre verwaltete FSx Dateisystem gelöscht, ohne dass die vorhandenen Daten erhalten bleiben. Dies führt zu Datenverlust. Stellen Sie sicher, dass Sie die Daten aus dem vorhandenen FSx for Lustre-Dateisystem sichern, wenn Sie Daten erhalten möchten. Weitere Informationen finden Sie unter Arbeiten mit Backups im FSx for Lustre-Benutzerhandbuch.
Warnung
Wenn Sie Efa für Ihre Compute-Instances aktivieren, stellen Sie sicher, dass Ihre EFA-fähigen Instances Mitglieder einer Sicherheitsgruppe sind, die den gesamten eingehenden und ausgehenden Datenverkehr für sich selbst zulässt.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
AdditionalSecurityGroups([String]Optional,)-
Eine Liste zusätzlicher Sicherheitsgruppen, die für die Slurm Warteschlange verwendet werden sollen.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
PlacementGroup(Fakultativ)-
Gibt die Platzierungsgruppeneinstellungen für die Slurm Warteschlange an.
PlacementGroup: Enabled:booleanId:stringName:stringEnabled(Optional,Boolean)-
Gibt an, ob eine Platzierungsgruppe für die Slurm Warteschlange verwendet wird. Der Standardwert ist
false. Id(Optional,String)-
Die Platzierungsgruppen-ID für eine bestehende Cluster-Platzierungsgruppe, die von der Slurm Warteschlange verwendet wird. Stellen Sie sicher, dass Sie die Platzierungsgruppen-ID und nicht den Namen angeben.
Name(Fakultativ,String)-
Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die von der Slurm Warteschlange verwendet wird. Stellen Sie sicher, dass Sie den Namen der Platzierungsgruppe und nicht die ID angeben.
Anmerkung
-
Wenn
PlacementGroup/auf gesetztEnabledisttrue, ohne dass einNameoderIddefiniert ist, wird jeder Rechenressource ihre eigene verwaltete Platzierungsgruppe zugewiesen, es sei denn, ComputeResources/Networking/PlacementGroupist so definiert, dass es diese Einstellung überschreibt. -
Ab AWS ParallelCluster Version 3.3.0 Namewurde SlurmQueues/Networking/PlacementGroup/als bevorzugte Alternative zu SlurmQueues//NetworkingPlacementGroup/Idhinzugefügt.
PlacementGroup/Idund PlacementGroup/Namesind gleichwertig. Sie können beide verwenden.
Wenn Sie sowohl PlacementGroup/als auch PlacementGroup/Idangeben Name, AWS ParallelCluster schlägt dies fehl. Sie können nur das eine oder das andere wählen.
Sie müssen Ihren Cluster nicht aktualisieren, um PlacementGroup/verwenden zu können Name.
Proxy(Fakultativ)-
Gibt die Proxyeinstellungen für die Slurm Warteschlange an.
Proxy: HttpProxyAddress:stringHttpProxyAddress(Optional,String)-
Definiert einen HTTP- oder HTTPS-Proxyserver für die Slurm Warteschlange. Normalerweise ist es
https://.x.x.x.x:8080Es gibt keinen Standardwert.
Image
(Optional) Gibt das Bild an, das für die Slurm Warteschlange verwendet werden soll. Um dasselbe AMI für alle Knoten zu verwenden, verwenden Sie die CustomAmiEinstellung im ImageAbschnitt.
Image: CustomAmi:string
ImageEigenschaften
CustomAmi(Fakultativ,String)-
Das AMI, das für die Slurm Warteschlange anstelle der Standardeinstellung verwendet werden soll AMIs. Sie können den pcluster CLI-Befehl verwenden, um eine Liste der Standardeinstellungen anzuzeigen AMIs.
Anmerkung
Das AMI muss auf demselben Betriebssystem basieren, das vom Hauptknoten verwendet wird.
pcluster list-official-imagesWenn das benutzerdefinierte AMI zusätzliche Berechtigungen für seinen Start benötigt, müssen Sie diese Berechtigungen zur Head-Node-Richtlinie hinzufügen.
Wenn einem benutzerdefinierten AMI beispielsweise ein verschlüsselter Snapshot zugeordnet ist, sind die folgenden zusätzlichen Richtlinien in den Richtlinien für den Hauptknoten erforderlich.
Informationen zur Fehlerbehebung bei benutzerdefinierten AMI-Validierungswarnungen finden Sie unterBehebung von Problemen mit benutzerdefinierten AMIs.
ComputeResources
(Erforderlich) Definiert die ComputeResources Konfiguration für die Slurm Warteschlange.
Anmerkung
-
Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität.
-
Neue Rechenressourcen können dem Cluster nur hinzugefügt werden, wenn sie in Subnetzen bereitgestellt werden, die zu CIDR-Blöcken gehören, die bei der Erstellung des Clusters vorhanden waren.
ComputeResources: - Name:stringInstanceType:stringInstances: - InstanceType:stringMinCount:integerMaxCount:integerDynamicNodePriority:integerStaticNodePriority:integerSpotPrice:floatDisableSimultaneousMultithreading:booleanSchedulableMemory:integerHealthChecks: Gpu: Enabled:booleanEfa: Enabled:booleanGdrSupport:booleanCapacityReservationTarget: CapacityReservationId:stringCapacityReservationResourceGroupArn:stringNetworking: PlacementGroup: Enabled:booleanName:stringCustomSlurmSettings:dictTags: - Key:stringValue:string
ComputeResources-Eigenschaften
Name(Erforderlich,)String-
Der Name der Slurm Warteschlangencomputer-Umgebung. Der Name kann bis zu 25 Zeichen lang sein.
Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
InstanceType(Erforderlich,String)-
Der Instanztyp, der in dieser Slurm Rechenressource verwendet wird. Alle Instance-Typen in einem Cluster müssen dieselbe Prozessorarchitektur verwenden. Instanzen können entweder die
x86_64arm64Oder-Architektur verwenden.Die Clusterkonfiguration muss entweder Instanzen InstanceTypeoder definieren. Wenn beide definiert sind, AWS ParallelCluster schlägt dies fehl.
Wenn Sie definieren
InstanceType, können Sie nicht mehrere Subnetze definieren. Wenn Sie nur einen Instanztyp konfigurieren und mehrere Subnetze verwenden möchten, definieren Sie Ihren Instanztyp in undInstancesnicht in.InstanceTypeWeitere Informationen finden Sie unter Networking/SubnetIds.Wenn Sie einen hpc6id Instance-Typ p4d oder einen anderen Instance-Typ mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte definieren, müssen Sie die Compute-Instances in einem privaten Subnetz starten, wie unter beschrieben. AWS ParallelCluster unter Verwendung von zwei Subnetzen AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet werden. Weitere Informationen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2 Amazon-Benutzerhandbuch für Linux-Instances.
Instances(Erforderlich)-
Gibt die Liste der Instanztypen für eine Rechenressource an. Informationen zur Angabe der Zuweisungsstrategie für die Liste der Instanztypen finden Sie unter AllocationStrategy.
Die Clusterkonfiguration muss entweder InstanceTypeoder definieren Instances. Wenn beide definiert sind, AWS ParallelCluster schlägt dies fehl.
Weitere Informationen finden Sie unter Zuweisung mehrerer Instanztypen mit Slurm.
Instances: - InstanceType:stringAnmerkung
Ab AWS ParallelCluster Version 3.7.0
EnableMemoryBasedSchedulingkann aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.
x,EnableMemoryBasedSchedulingkann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren.InstanceType(Erforderlich,String)-
Der Instanztyp, der in dieser Slurm Rechenressource verwendet werden soll. Alle Instanztypen in einem Cluster müssen dieselbe Prozessorarchitektur verwenden, entweder
x86_64oderarm64.Die unter aufgeführten Instanztypen Instancesmüssen Folgendes aufweisen:
-
Dieselbe Anzahl von v oderCPUs, falls DisableSimultaneousMultithreadingauf eingestellt
true, dieselbe Anzahl von Kernen. -
Dieselbe Anzahl von Beschleunigern derselben Hersteller.
-
EFA wird unterstützt, falls Efa/auf Enabledgesetzt ist.
true
Die unter aufgeführten Instance-Typen Instanceskönnen Folgendes haben:
-
Unterschiedliche Speichermenge.
In diesem Fall muss der Mindestspeicher als verbrauchbare Slurm Ressource festgelegt werden.
Anmerkung
Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.
x,EnableMemoryBasedSchedulingkann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren. -
Verschiedene Netzwerkkarten.
In diesem Fall wird die Anzahl der für die Rechenressource konfigurierten Netzwerkschnittstellen durch den Instanztyp mit der geringsten Anzahl von Netzwerkkarten definiert.
-
Unterschiedliche Netzwerkbandbreite.
-
Unterschiedliche Größe des Instance-Speichers.
Wenn Sie einen hpc6id Instance-Typ p4d oder einen anderen Instance-Typ mit mehreren Netzwerkschnittstellen oder einer Netzwerkschnittstellenkarte definieren, müssen Sie die Compute-Instances in einem privaten Subnetz starten, wie unter beschrieben. AWS ParallelCluster unter Verwendung von zwei Subnetzen AWS public IPs kann nur Instances zugewiesen werden, die mit einer einzigen Netzwerkschnittstelle gestartet wurden. Weitere Informationen finden Sie unter Zuweisen einer öffentlichen IPv4 Adresse beim Instance-Start im EC2 Amazon-Benutzerhandbuch für Linux-Instances.
-
Anmerkung
Instanceswird ab AWS ParallelCluster Version 3.3.0 unterstützt. MinCount(Fakultativ,Integer)-
Die Mindestanzahl von Instanzen, die die Slurm Rechenressource verwendet. Der Standardwert ist 0.
Anmerkung
Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität
MaxCount(Optional,Integer)-
Die maximale Anzahl von Instanzen, die die Slurm Rechenressource verwendet. Der Standardwert ist 10.
Wenn Sie diese Option verwenden
CapacityType = CAPACITY_BLOCK,MaxCountmuss sie gleich oderMinCountgrößer als 0 sein, da alle Instanzen, die Teil der Capacity Block-Reservierung sind, als statische Knoten verwaltet werden.Bei der Clustererstellung wartet der Hauptknoten, bis alle statischen Knoten bereit sind, bevor er den Erfolg der Clustererstellung signalisiert. Wenn Sie jedoch die Knoten verwenden
CapacityType = CAPACITY_BLOCK, die Teil der Rechenressourcen sind, die Kapazitätsblöcken zugeordnet sind, werden sie bei dieser Prüfung nicht berücksichtigt. Der Cluster wird auch dann erstellt, wenn nicht alle konfigurierten Kapazitätsblöcke aktiv sind.Anmerkung
Die Clustergröße kann sich während eines Updates ändern. Weitere Informationen finden Sie unter Größe und Aktualisierung der Clusterkapazität
DynamicNodePriority(Optional,Integer)-
Die Priorität dynamischer Knoten in einer Queue-Rechenressource. Die Priorität ist dem Slurm
WeightKnotenkonfigurationsparameter für die dynamischen Rechenressourcenknoten zugeordnet. Der Standardwert ist 1000.Slurmpriorisiert zuerst Knoten mit den niedrigsten
WeightWerten.Warnung
Die Verwendung vieler verschiedener
WeightWerte in einer Slurm Partition (Warteschlange) kann die Geschwindigkeit der Jobplanung in der Warteschlange verlangsamen.In AWS ParallelCluster Versionen vor Version 3.7.0 wurde sowohl statischen als auch dynamischen Knoten dieselbe Standardgewichtung von
1zugewiesen. In diesem Fall Slurm könnte aufgrund des Benennungsschemas für statische und dynamische Knoten im Leerlauf dynamische Knoten Vorrang vor inaktiven statischen Knoten eingeräumt werden. Wenn alles andere gleich ist, werden Knoten Slurm alphabetisch nach Namen sortiert.Anmerkung
DynamicNodePrioritywurde in AWS ParallelCluster Version 3.7.0 hinzugefügt.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
StaticNodePriority(Fakultativ,Integer)-
Die Priorität statischer Knoten in einer Queue-Rechenressource. Die Priorität ist dem Slurm
WeightKnotenkonfigurationsparameter für die statischen Rechenressourcenknoten zugeordnet. Der Standardwert ist 1.Slurmpriorisiert zuerst Knoten mit den niedrigsten
WeightWerten.Warnung
Die Verwendung vieler verschiedener
WeightWerte in einer Slurm Partition (Warteschlange) kann die Geschwindigkeit der Jobplanung in der Warteschlange verlangsamen.Anmerkung
StaticNodePrioritywurde in AWS ParallelCluster Version 3.7.0 hinzugefügt.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
SpotPrice(Fakultativ,Float)-
Der Höchstpreis, der für eine Amazon EC2 Spot-Instance bezahlt wurde, bevor Instances gestartet wurden. Der Standardwert ist der On-Demand-Preis.
DisableSimultaneousMultithreading(Optional,Boolean)-
Wenn
trueMultithreading auf den Knoten in der Slurm Warteschlange deaktiviert ist. Der Standardwert istfalse.Nicht alle Instance-Typen können Multithreading deaktivieren. Eine Liste der Instance-Typen, die die Deaktivierung von Multithreading unterstützen, finden Sie im EC2 Amazon-Benutzerhandbuch unter CPU-Kerne und Threads für jeden CPU-Kern pro Instance-Typ.
SchedulableMemory(Optional,)Integer-
Die Speichermenge in MiB, die im Slurm Parameter
RealMemoryfür die Rechenknoten einer Rechenressource konfiguriert ist. Dieser Wert ist die Obergrenze für den Knotenspeicher, der für Jobs verfügbar ist, wenn SlurmSettings/aktiviert EnableMemoryBasedSchedulingist. Der Standardwert ist 95 Prozent des Speichers, der in Amazon EC2 Instance Typesaufgeführt und von der EC2 Amazon-API zurückgegeben wird DescribeInstanceTypes. Achten Sie darauf, Werte, die in GiB angegeben sind, in MiB umzurechnen. Unterstützte Werte:
1-EC2MemoryEC2Memoryist der Speicher (in MiB), der in Amazon EC2 Instance Typesaufgeführt und von der EC2 Amazon-API DescribeInstanceTypeszurückgegeben wird. Achten Sie darauf, Werte, die in GiB angegeben sind, in MiB umzurechnen. Diese Option ist am relevantesten, wenn SlurmSettings/aktiviert EnableMemoryBasedSchedulingist. Weitere Informationen finden Sie unter Slurm speicherbasierte Terminplanung.
Anmerkung
SchedulableMemorywird ab AWS ParallelCluster Version 3.2.0 unterstützt.Ab Version 3.2.0 werden
RealMemoryfür Slurm Rechenknoten standardmäßig 95 Prozent des Speichers AWS ParallelCluster konfiguriert, der von der EC2 Amazon-API zurückgegeben wird.DescribeInstanceTypesDiese Konfiguration ist unabhängig vom Wert von.EnableMemoryBasedScheduling HealthChecks(Fakultativ)-
Geben Sie Integritätsprüfungen für eine Rechenressource an.
Gpu(Fakultativ)-
Geben Sie GPU-Zustandsprüfungen für eine Rechenressource an.
Enabled(Fakultativ,Boolean)-
Gibt an AWS ParallelCluster , ob GPU-Zustandsprüfungen bei der Berechnung einer Ressource in einer Warteschlange durchgeführt werden. Der Standardwert ist
false.Anmerkung
AWS ParallelCluster unterstützt
HealthChecks/nichtGpuin Knoten, diealinux2ARM-Betriebssysteme verwenden. Diese Plattformen unterstützen den NVIDIA Data Center GPU Manager (DCGM)nicht.
GpuVerhalten bei der Gesundheitsprüfung-
Wenn
Gpu/auf gesetztEnabledisttrue, AWS ParallelCluster werden GPU-Integritätsprüfungen für eine Rechenressource durchgeführt. -
Die
GpuZustandsprüfung führt Integritätsprüfungen für eine Rechenressource durch, um zu verhindern, dass Jobs auf Knoten mit einer herabgesetzten GPU gesendet werden. -
Wenn ein Rechenknoten eine
GpuZustandsprüfung nicht besteht, ändert sich der Status des Rechenknotens aufDRAIN. Neue Jobs werden auf diesem Knoten nicht gestartet. Bestehende Jobs werden bis zum Abschluss ausgeführt. Wenn alle laufenden Jobs abgeschlossen sind, wird der Rechenknoten beendet, wenn es sich um einen dynamischen Knoten handelt, und er wird ersetzt, wenn es sich um einen statischen Knoten handelt. -
Die Dauer der
GpuIntegritätsprüfung hängt vom ausgewählten Instanztyp, der Anzahl der Instanzziele GPUs in der Instanz und der Anzahl derGpuIntegritätsprüfungsziele ab (entspricht der Anzahl der Job-GPU-Ziele). Bei einer Instanz mit 8 GPUs beträgt die typische Dauer weniger als 3 Minuten. -
Wenn die
GpuIntegritätsprüfung auf einer Instanz ausgeführt wird, die nicht unterstützt wird, wird sie beendet und der Job wird auf dem Rechenknoten ausgeführt. Wenn eine Instanz beispielsweise keine GPU hat oder, wenn eine Instanz über eine GPU verfügt, es sich aber nicht um eine NVIDIA-GPU handelt, wird die Integritätsprüfung beendet und der Job wird auf dem Rechenknoten ausgeführt. Es GPUs werden nur NVIDIA unterstützt. -
Die
GpuIntegritätsprüfung verwendet dasdcgmiTool, um Integritätsprüfungen an einem Knoten durchzuführen, und umfasst die folgenden Schritte:Wenn die
GpuZustandsprüfung in einem Knoten beginnt:-
Es erkennt, ob die
nvidia-fabricmanagerDienstenvidia-dcgmund ausgeführt werden. -
Wenn diese Dienste nicht ausgeführt werden, werden sie durch die
GpuIntegritätsprüfung gestartet. -
Es erkennt, ob der Persistenzmodus aktiviert ist.
-
Wenn der Persistenzmodus nicht aktiviert ist, wird er durch die
GpuIntegritätsprüfung aktiviert.
Am Ende der Zustandsprüfung werden diese Dienste und Ressourcen durch die
GpuZustandsprüfung in ihren ursprünglichen Zustand zurückversetzt. -
-
Wenn der Job einer bestimmten Gruppe von Knoten zugewiesen ist GPUs, wird die
GpuIntegritätsprüfung nur für diese bestimmte Gruppe ausgeführt. Andernfalls wird dieGpuIntegritätsprüfung für alle GPUs Knoten ausgeführt. -
Wenn ein Rechenknoten zwei oder mehr
GpuIntegritätsprüfungsanfragen gleichzeitig empfängt, wird nur die erste Zustandsprüfung ausgeführt und die anderen werden übersprungen. Dies ist auch bei Zustandsprüfungen der Fall, die auf den Knoten GPUs abzielen. Sie können in den Protokolldateien nach weiteren Informationen zu dieser Situation suchen. -
Das Protokoll der Integritätsprüfung für einen bestimmten Rechenknoten ist in der
/var/log/parallelcluster/slurm_health_check.logDatei verfügbar. Diese Datei ist in Amazon CloudWatch in der CloudWatch Cluster-Protokollgruppe verfügbar. Dort finden Sie:-
Einzelheiten zu der Aktion, die im Rahmen der
GpuIntegritätsprüfung ausgeführt wurde, einschließlich der Aktivierung und Deaktivierung von Diensten und des Persistenzmodus. -
Die GPU-Kennung, die serielle ID und die UUID.
-
Die Ausgabe des Integritätschecks.
-
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
HealthCheckswird ab AWS ParallelCluster Version 3.6.0 unterstützt. Efa(Fakultativ)-
Gibt die Elastic Fabric Adapter (EFA) -Einstellungen für die Knoten in der Slurm Warteschlange an.
Efa: Enabled:booleanGdrSupport:booleanEnabled(Optional,Boolean)-
Gibt an, dass der Elastic Fabric Adapter (EFA) aktiviert ist. Eine Liste der EC2 Amazon-Instances, die EFA unterstützen, finden Sie unter Unterstützte Instance-Typen im EC2 Amazon-Benutzerhandbuch für Linux-Instances. Weitere Informationen finden Sie unter Elastic Fabric Adapter. Wir empfehlen die Verwendung eines Clusters SlurmQueues/Networking/, PlacementGroupum die Latenzen zwischen den Instances zu minimieren.
Der Standardwert ist
false.Anmerkung
Elastic Fabric Adapter (EFA) wird in verschiedenen Availability Zones nicht unterstützt. Weitere Informationen finden Sie unter SubnetIds.
Warnung
Wenn Sie eine benutzerdefinierte Sicherheitsgruppe in definieren SecurityGroups, stellen Sie sicher, dass Ihre EFA-fähigen Instances Mitglieder einer Sicherheitsgruppe sind, die den gesamten eingehenden und ausgehenden Datenverkehr für sich selbst zulässt.
GdrSupport(Optional,)Boolean-
(Optional) Ab AWS ParallelCluster Version 3.0.2 hat diese Einstellung keine Auswirkung. Die Unterstützung des Elastic Fabric Adapter (EFA) für GPUDirect RDMA (Remote Direct Memory Access) ist immer aktiviert, wenn sie vom Instance-Typ für die Slurm Rechenressource und das Betriebssystem unterstützt wird.
CapacityReservationTarget-
CapacityReservationTarget: CapacityReservationId:stringCapacityReservationResourceGroupArn:stringGibt die On-Demand-Kapazitätsreservierung an, die für die Rechenressource verwendet werden soll.
CapacityReservationId(Fakultativ,String)-
Die ID der vorhandenen Kapazitätsreservierung, die für die Rechenressourcen der Warteschlange als Ziel verwendet werden soll. Die ID kann sich auf ein ODCR oder einen Kapazitätsblock für ML beziehen.
Wenn dieser Parameter auf Rechenressourcenebene angegeben wird, InstanceType ist er optional und wird automatisch aus der Reservierung abgerufen.
CapacityReservationResourceGroupArn(Optional,String)-
Gibt den Amazon-Ressourcennamen (ARN) der Ressourcengruppe an, die als serviceverknüpfte Gruppe von Kapazitätsreservierungen für die Rechenressource dient. AWS ParallelCluster identifiziert und verwendet die am besten geeignete Kapazitätsreservierung aus der Gruppe. Die Ressourcengruppe muss mindestens ein ODCR für jeden Instanztyp haben, der für die Rechenressource aufgeführt ist. Weitere Informationen finden Sie unter Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR).
-
Wenn die Option in SlurmQueues/Networkingoder SlurmQueues//aktiviert
PlacementGroupist Networking, wird eine Ressourcengruppe AWS ParallelCluster ausgewählt, die auf den Instanztyp abzielt, undPlacementGroupfür eine Rechenressource, falls diese existiert. ComputeResourcesSie
PlacementGroupmuss auf einen der in definierten Instanztypen abzielen ComputeResources. -
Wenn sie in SlurmQueues/Networkingoder SlurmQueuesComputeResources/
PlacementGroupnicht aktiviert ist Networking, AWS ParallelCluster wird eine Ressourcengruppe ausgewählt, die nur auf den Instanztyp einer Rechenressource abzielt, sofern diese existiert.
-
Anmerkung
CapacityReservationTargetwird mit AWS ParallelCluster Version 3.3.0 hinzugefügt. Networking-
Networking: PlacementGroup: Enabled:booleanName:stringPlacementGroup(Fakultativ)-
Gibt die Platzierungsgruppeneinstellungen für die Rechenressource an.
Enabled(Optional,Boolean)-
Gibt an, ob eine Platzierungsgruppe für die Rechenressource verwendet wird.
-
Wenn dieser Wert auf
truegesetzt ist und keinNamedefinierter Wert angegeben ist, wird dieser Rechenressource unabhängig von der PlacementGroupEinstellung SlurmQueues/Networking/eine eigene verwaltete Platzierungsgruppe zugewiesen. -
Wenn dieser Wert auf
truegesetzt ist und einNameWert definiert ist, wird dieser Rechenressource unabhängig von denSlurmQueues/Networking/PlacementGroup-Einstellungen die benannte Platzierungsgruppe zugewiesen.
-
Name(Optional,String)-
Der Name der Platzierungsgruppe für eine bestehende Cluster-Platzierungsgruppe, die für die Rechenressource verwendet wird.
Anmerkung
-
Wenn
EnabledsowohlPlacementGroup/als auchNamenicht gesetzt sind, werden für ihre jeweiligen Werte standardmäßig die PlacementGroupEinstellungen SlurmQueues/Networking/verwendet. -
ComputeResources/Networking/PlacementGroupwird mit AWS ParallelCluster Version 3.3.0 hinzugefügt.
CustomSlurmSettings(Fakultativ,Dict)-
(Optional) Definiert die Konfigurationseinstellungen für den benutzerdefinierten Slurm Knoten (Rechenressource).
Gibt ein Wörterbuch mit Schlüssel-Wert-Paaren für benutzerdefinierte Slurm Konfigurationsparameter an, die für Slurm Knoten (Rechenressourcen) gelten.
Jedes einzelne Schlüssel-Wert-Paar, z. B.
Param1: Value1, wird separat am Ende der Slurm Knotenkonfigurationszeile im Format hinzugefügt.Param1=Value1Sie können nur Slurm Konfigurationsparameter angeben, die nicht auf der Sperrliste stehen.
CustomSlurmSettingsHinweise zu Slurm Konfigurationsparametern auf der Sperrliste finden Sie unter. Auf der Denim-Liste Slurm Konfigurationsparameter für CustomSlurmSettingsAWS ParallelCluster prüft nur, ob ein Parameter auf einer Sperrliste steht. AWS ParallelCluster validiert die Syntax oder Semantik Ihrer benutzerdefinierten Slurm Konfigurationsparameter nicht. Es liegt in Ihrer Verantwortung, Ihre benutzerdefinierten Slurm Konfigurationsparameter zu validieren. Ungültige benutzerdefinierte Slurm Konfigurationsparameter können zu Slurm Daemon-Ausfällen führen, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.
Weitere Hinweise zum Angeben von benutzerdefinierten Slurm Konfigurationsparametern mit finden Sie AWS ParallelCluster unterSlurm Anpassung der Konfiguration.
Weitere Informationen zu Slurm Konfigurationsparametern finden Sie in der Dokumentation unter slurm.conf.
Slurm Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster Tags(Optional, [Zeichenfolge])-
Eine Liste von Tag-Schlüssel-Wert-Paaren.
ComputeResourceTags überschreiben doppelte Tags, die in Tags Abschnitt oder SlurmQueues/angegeben sind.TagsKey(Optional,String)-
Der Tag-Schlüssel.
Value(Fakultativ,String)-
Der Tag-Wert.
ComputeSettings
(Erforderlich) Definiert die ComputeSettings Konfiguration für die Slurm Warteschlange.
ComputeSettings-Eigenschaften
Gibt die Eigenschaften ComputeSettings der Knoten in der Slurm Warteschlange an.
ComputeSettings: LocalStorage: RootVolume: Size:integerEncrypted:booleanVolumeType:stringIops:integerThroughput:integerEphemeralVolume: MountDir:string
LocalStorage(Fakultativ)-
Gibt die Eigenschaften
LocalStorageder Knoten in der Slurm Warteschlange an.LocalStorage: RootVolume: Size:integerEncrypted:booleanVolumeType:stringIops:integerThroughput:integerEphemeralVolume: MountDir:stringRootVolume(Fakultativ)-
Gibt die Details des Root-Volumes der Knoten in der Slurm Warteschlange an.
RootVolume: Size:integerEncrypted:booleanVolumeType:stringIops:integerThroughput:integerSize(Fakultativ,Integer)-
Gibt die Größe des Root-Volumes in Gibibyte (GiB) für die Knoten in der Slurm Warteschlange an. Die Standardgröße stammt vom AMI. Die Verwendung einer anderen Größe erfordert, dass das AMI sie unterstützt
growroot. Encrypted(Fakultativ,Boolean)-
Falls
true, ist das Root-Volume der Knoten in der Slurm Warteschlange verschlüsselt. Der Standardwert istfalse. VolumeType(Fakultativ,String)-
Gibt den Amazon EBS-Volumetyp der Knoten in der Slurm Warteschlange an. Unterstützte Werte sind
gp2gp3,io1,io2,sc1st1, undstandard. Der Standardwert istgp3.Weitere Informationen finden Sie unter Amazon EBS-Volumetypen im EC2 Amazon-Benutzerhandbuch.
Iops(Fakultativ,Boolean)-
Definiert die Anzahl der IOPS für Volumes
gp3vom Typio1io2, und.Der Standardwert, die unterstützten Werte und das
volume_sizeVerhältnisvolume_iopszum Verhältnis variieren je nachVolumeTypeundSize.VolumeType=io1-
Standard
Iops= 100Unterstützte Werte
Iops= 100—64000 †Maximales
volume_iopsvolume_sizeVerhältnis = 50 IOPS pro GiB. 5000 IOPS erfordern einen Wertvolume_sizevon mindestens 100 GiB. VolumeType=io2-
Standard
Iops= 100Unterstützte Werte
Iops= 100—64000 (256000 fürio2Block Express-Volumes) †Maximales
IopsSizeVerhältnis = 500 IOPS pro GiB. 5000 IOPS erfordern einen WertSizevon mindestens 10 GiB. VolumeType=gp3-
Standard
Iops= 3000Unterstützte Werte
Iops= 3000—16000 †Maximales
IopsSizeVerhältnis = 500 IOPS pro GiB für Volumes mit mehr als 3000 IOPS.
† Maximale IOPS wird nur für Instances garantiert, die auf dem Nitro-System basieren und auch mit mehr als 32.000 IOPS ausgestattet sind. Andere Instanzen können bis zu 32.000 IOPS haben. Frühere
io1Volumes erreichen möglicherweise nicht die volle Leistung, es sei denn, Sie ändern das Volume.io2Block Express-Volumes unterstützenvolume_iopsWerte bis zu 256000 fürR5bInstance-Typen. Weitere Informationen finden Sie unterio2Block Express-Volumes im EC2 Amazon-Benutzerhandbuch. Throughput(Fakultativ,Integer)-
Definiert den Durchsatz für
gp3Volumetypen in MiB/s. Diese Einstellung ist nur gültig, wenn sieVolumeTypeist.gp3Der Standardwert ist125. Unterstützte Werte: 125—1000 MiB/sDas Verhältnis von
ThroughputzuIopsdarf nicht mehr als 0,25 betragen. Der maximale Durchsatz von 1000 MiB/s setzt voraus, dass dieIopsEinstellung mindestens 4000 beträgt.
EphemeralVolume(Fakultativ,Boolean)-
Gibt die Einstellungen für das ephemere Volume an. Das ephemere Volume wird erstellt, indem alle Instance-Speicher-Volumes zu einem einzigen logischen Volume zusammengefasst werden, das mit dem Dateisystem formatiert ist.
ext4Der Standardwert ist/scratch. Wenn der Instance-Typ keine Instance-Speicher-Volumes hat, wird kein ephemeres Volume erstellt. Weitere Informationen finden Sie unter Instance-Speicher-Volumes im EC2 Amazon-Benutzerhandbuch.EphemeralVolume: MountDir:stringMountDir(Fakultativ,String)-
Das Mount-Verzeichnis für das ephemere Volume für jeden Knoten in der Slurm Warteschlange.
CustomActions
(Optional) Gibt benutzerdefinierte Skripts an, die auf den Knoten in der Slurm Warteschlange ausgeführt werden sollen.
CustomActions: OnNodeStart: Sequence: - Script:stringArgs: -stringScript:stringArgs: -stringOnNodeConfigured: Sequence: - Script:stringArgs: -stringScript:stringArgs: -string
CustomActionsEigenschaften
OnNodeStart(Fakultativ,String)-
Gibt eine Sequenz von Skripten oder ein einzelnes Skript an, das auf den Knoten in der Slurm Warteschlange ausgeführt werden soll, bevor eine Bootstrap-Aktion zur Knotenbereitstellung gestartet wird. AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch
Sequencedieselbe benutzerdefinierte Aktion einzubeziehen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.Sequence(Fakultativ)-
Liste der auszuführenden Skripts.
Script(Erforderlich,String)-
Die zu verwendende Datei. Der Dateipfad kann mit
https://oder beginnens3://. Args(Fakultativ,[String])-
Die Liste der Argumente, die an das Skript übergeben werden sollen.
Script(Erforderlich,String)-
Die Datei, die für ein einzelnes Skript verwendet werden soll. Der Dateipfad kann mit
https://oder beginnens3://. Args(Fakultativ,[String])-
Die Liste der Argumente, die an das einzelne Skript übergeben werden sollen.
OnNodeConfigured(Fakultativ,String)-
Gibt eine Sequenz von Skripten oder ein einzelnes Skript an, das auf den Knoten in der Slurm Warteschlange ausgeführt wird, nachdem alle Knoten-Bootstrap-Aktionen abgeschlossen sind. AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch
Sequencedieselbe benutzerdefinierte Aktion einzubeziehen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.Sequence(Fakultativ)-
Liste der auszuführenden Skripts.
Script(Erforderlich,String)-
Die zu verwendende Datei. Der Dateipfad kann mit
https://oder beginnens3://. Args(Fakultativ,[String])-
Die Liste der Argumente, die an das Skript übergeben werden sollen.
Script(Erforderlich,String)-
Die Datei, die für ein einzelnes Skript verwendet werden soll. Der Dateipfad kann mit
https://oder beginnens3://. Args(Fakultativ,[String])-
Eine Liste von Argumenten, die an das einzelne Skript übergeben werden sollen.
Anmerkung
Sequencewird ab AWS ParallelCluster Version 3.6.0 hinzugefügt. Wenn Sie angebenSequence, können Sie mehrere Skripts für eine benutzerdefinierte Aktion auflisten. AWS ParallelCluster unterstützt weiterhin die Konfiguration einer benutzerdefinierten Aktion mit einem einzigen Skript, ohne dies einzuschließenSequence.AWS ParallelCluster unterstützt nicht, sowohl ein einzelnes Skript als auch
Sequencedieselbe benutzerdefinierte Aktion einzubeziehen.
Iam
(Optional) Definiert optionale IAM-Einstellungen für die Slurm Warteschlange.
Iam: S3Access: - BucketName:stringEnableWriteAccess:booleanKeyName:stringAdditionalIamPolicies: - Policy:stringInstanceProfile:stringInstanceRole:string
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
IamEigenschaften
InstanceProfile(Fakultativ,String)-
Gibt ein Instanzprofil an, um die Standard-Instanzrolle oder das Instanzprofil für die Slurm Warteschlange zu überschreiben. Sie können nicht sowohl als
InstanceProfileauch angebenInstanceRole. Das Format istarn:${Partition}:iam::${Account}:instance-profile/${InstanceProfileName}.Wenn dies angegeben ist, können die
AdditionalIamPoliciesEinstellungenS3Accessund nicht angegeben werden.Es wird empfohlen, eine oder beide
AdditionalIamPoliciesEinstellungen fürS3Accessund anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern. InstanceRole(Optional,String)-
Gibt eine Instanzrolle an, um die Standard-Instanzrolle oder das Instanzprofil für die Slurm Warteschlange zu überschreiben. Sie können nicht sowohl als
InstanceProfileauch angebenInstanceRole. Das Format istarn:${Partition}:iam::${Account}:role/${RoleName}.Wenn dies angegeben ist, können die
AdditionalIamPoliciesEinstellungenS3Accessund nicht angegeben werden.Es wird empfohlen, eine oder beide
AdditionalIamPoliciesEinstellungen fürS3Accessund anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
S3Access(Fakultativ)-
Gibt einen Bucket für die Slurm Warteschlange an. Dies wird verwendet, um Richtlinien zu generieren, um den angegebenen Zugriff auf den Bucket in der Slurm Warteschlange zu gewähren.
Wenn dies angegeben ist, können die
InstanceRoleEinstellungenInstanceProfileund nicht angegeben werden.Es wird empfohlen, eine oder beide
AdditionalIamPoliciesEinstellungen fürS3Accessund anzugeben, da hinzugefügte Funktionen AWS ParallelCluster häufig neue Berechtigungen erfordern.S3Access: - BucketName:stringEnableWriteAccess:booleanKeyName:stringAktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
BucketName(Erforderlich,String)-
Der Name des -Buckets.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
KeyName(Fakultativ,String)-
Der Schlüssel für den Eimer. Der Standardwert ist
*.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
EnableWriteAccess(Fakultativ,Boolean)-
Gibt an, ob der Schreibzugriff für den Bucket aktiviert ist.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
AdditionalIamPolicies(Fakultativ)-
Gibt eine Liste von Amazon-Ressourcennamen (ARNs) von IAM-Richtlinien für Amazon EC2 an. Diese Liste ist zusätzlich zu den Berechtigungen, die für erforderlich sind, an die Root-Rolle angehängt, die für die Slurm Warteschlange verwendet wird AWS ParallelCluster.
Ein IAM-Richtlinienname und sein ARN sind unterschiedlich. Namen können nicht verwendet werden.
Wenn dies angegeben ist, können die
InstanceRoleEinstellungenInstanceProfileund nicht angegeben werden.Wir empfehlen die Verwendung,
AdditionalIamPoliciesda sie zu den erforderlichen Berechtigungen hinzugefügtAdditionalIamPolicieswerden und alle erforderlichen Berechtigungen enthaltenInstanceRolemüssen. AWS ParallelCluster Die erforderlichen Berechtigungen ändern sich häufig von Version zu Version, da Funktionen hinzugefügt werden.Es gibt keinen Standardwert.
AdditionalIamPolicies: - Policy:stringAktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Policy(Erforderlich,[String])-
Liste der IAM-Richtlinien.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
SlurmSettings
(Optional) Definiert die EinstellungenSlurm, die für den gesamten Cluster gelten.
SlurmSettings: ScaledownIdletime:integerQueueUpdateStrategy:stringEnableMemoryBasedScheduling:booleanCustomSlurmSettings:[dict]CustomSlurmSettingsIncludeFile:stringDatabase: Uri:stringUserName:stringPasswordSecretArn:stringExternalSlurmdbd: Host:stringPort:integerDns: DisableManagedDns:booleanHostedZoneId:stringUseEc2Hostnames:boolean
SlurmSettingsEigenschaften
ScaledownIdletime(Fakultativ,Integer)-
Definiert den Zeitraum (in Minuten), für den es keinen Job gibt und der Slurm Knoten beendet wird.
Der Standardwert ist
10. MungeKeySecretArn(Optional,String)-
Der Amazon-Ressourcenname (ARN) des AWS Secrets Manager Manager-Geheimnisses im Klartext, das den Base64-kodierten Munge-Schlüssel enthält, der im Cluster verwendet werden soll. Slurm Dieser Munge-Schlüssel wird verwendet, um RPC-Aufrufe zwischen Slurm Client-Befehlen und Slurm Daemons zu authentifizieren, die als Remoteserver agieren. Wenn MungeKeySecretArn nicht angegeben, AWS ParallelCluster wird ein zufälliger Munge-Schlüssel für den Cluster generiert.
Anmerkung
MungeKeySecretArnwird ab AWS ParallelCluster Version 3.8.0 unterstützt.Warnung
Wenn der MungeKeySecretArn neu zu einem vorhandenen Cluster hinzugefügt ParallelCluster wird, wird der vorherige munge Key im Falle eines Rollbacks oder beim späteren Entfernen des nicht wiederhergestellt. MungeKeySecretArn Stattdessen wird ein neuer zufälliger Munge-Schlüssel generiert.
Ob der AWS ParallelCluster Benutzer die Erlaubnis hat, DescribeSecretauf diese bestimmte geheime Ressource zuzugreifen, MungeKeySecretArn wird überprüft. MungeKeySecretArn ist gültig, wenn:
-
Das angegebene Geheimnis ist vorhanden, und
-
Das Geheimnis ist Klartext und enthält eine gültige Base64-kodierte Zeichenfolge, und
-
Der dekodierte binäre Munge-Schlüssel hat eine Größe zwischen 256 und 8192 Bit.
Wenn die IAM-Richtlinie für den Pcluster-Benutzer nicht einschließt DescribeSecret, MungeKeySecretArn wird sie nicht validiert und es wird eine Warnmeldung angezeigt. Weitere Informationen finden Sie unter AWS ParallelCluster pclusterGrundlegende Benutzerrichtlinie.
Wenn Sie ein Update MungeKeySecretArn durchführen, müssen die Rechenflotte und alle Anmeldeknoten gestoppt werden.
Wenn der geheime Wert im geheimen ARN geändert wird, während der ARN gleich bleibt, wird der Cluster nicht automatisch mit dem neuen Munge-Schlüssel aktualisiert. Um den neuen Munge-Schlüssel des geheimen ARN zu verwenden, müssen Sie die Compute-Flotte und die Anmeldeknoten stoppen und dann den folgenden Befehl vom Hauptknoten aus ausführen.
sudo /opt/parallelcluster/scripts/slurm/update_munge_key.shNachdem Sie den Befehl ausgeführt haben, können Sie sowohl die Rechenflotte als auch die Anmeldeknoten wieder aufnehmen: Die neu bereitgestellten Rechen- und Anmeldeknoten werden automatisch mit dem neuen Munge-Schlüssel gestartet.
Um einen Base64-codierten benutzerdefinierten Munge-Schlüssel zu generieren, können Sie das im Lieferumfang der Munge-Software enthaltene Mungekey-Hilfsprogramm
verwenden und es dann mit dem Base64-Hilfsprogramm codieren, das allgemein in Ihrem Betriebssystem verfügbar ist. Alternativ können Sie entweder bash verwenden (bitte setzen Sie den bs-Parameter zwischen 32 und 1024) dd if=/dev/random bs=128 count=1 2>/dev/null | base64 -w 0oder Python wie folgt:
import random import os import base64 # key length in bytes key_length=128 base64.b64encode(os.urandom(key_length)).decode("utf-8") -
QueueUpdateStrategy(Optional,String)-
Gibt die Ersatzstrategie für die SlurmQueues Abschnittsparameter an, für die die folgende Aktualisierungsrichtlinie gilt:
Der
QueueUpdateStrategyWert wird nur verwendet, wenn ein Cluster-Aktualisierungsprozess gestartet wird.Zulässige Werte:
COMPUTE_FLEET_STOP|DRAIN|TERMINATEStandardwert:
COMPUTE_FLEET_STOPDRAIN-
Knoten in Warteschlangen mit geänderten Parameterwerten sind auf
DRAININGeingestellt. Knoten in diesem Status akzeptieren keine neuen Jobs und laufende Jobs werden bis zum Abschluss fortgesetzt.Wenn ein Knoten zu
idle(DRAINED) wird, wird ein Knoten ersetzt, wenn es sich um einen statischen Knoten handelt, und der Knoten wird beendet, wenn der Knoten dynamisch ist. Andere Knoten in anderen Warteschlangen ohne geänderte Parameterwerte sind nicht betroffen.Die Zeit, die diese Strategie benötigt, um alle Warteschlangenknoten durch geänderte Parameterwerte zu ersetzen, hängt von der laufenden Arbeitslast ab.
COMPUTE_FLEET_STOP-
Der Standardwert des
QueueUpdateStrategyParameters. Bei dieser Einstellung müssen Sie zum Aktualisieren der Parameter SlurmQueues im Abschnitt die Rechenflotte beenden, bevor Sie ein Cluster-Update durchführen:$pcluster update-compute-fleet --status STOP_REQUESTED TERMINATE-
In Warteschlangen mit geänderten Parameterwerten werden laufende Jobs beendet und die Knoten werden sofort heruntergefahren.
Statische Knoten werden ersetzt und dynamische Knoten werden beendet.
Andere Knoten in anderen Warteschlangen ohne geänderte Parameterwerte sind nicht betroffen.
Aktualisierungsrichtlinie: Diese Einstellung wird während eines Updates nicht analysiert.
Anmerkung
QueueUpdateStrategywird ab AWS ParallelCluster Version 3.2.0 unterstützt. EnableMemoryBasedScheduling(Fakultativ,Boolean)-
Falls
truedie speicherbasierte Planung in aktiviert ist. Slurm Weitere Informationen finden Sie unter SlurmQueues//ComputeResources. SchedulableMemoryDer Standardwert ist
false.Warnung
Die Aktivierung der speicherbasierten Planung wirkt sich auf die Art und Weise aus, wie der Slurm Scheduler Jobs und die Knotenzuweisung verarbeitet.
Weitere Informationen finden Sie unter Slurm speicherbasierte Terminplanung.
Anmerkung
EnableMemoryBasedSchedulingwird ab Version 3.2.0 unterstützt. AWS ParallelClusterAnmerkung
Für die AWS ParallelCluster Versionen 3.2.0 bis 3.6.
x,EnableMemoryBasedSchedulingkann nicht aktiviert werden, wenn Sie mehrere Instanztypen in Instances konfigurieren. CustomSlurmSettings(Optional,[Dict])-
Definiert die benutzerdefinierten Slurm Einstellungen, die für den gesamten Cluster gelten.
Gibt eine Liste von Slurm Konfigurationswörterbüchern mit Schlüssel-Wert-Paaren an, die an das Ende der generierten Datei angehängt werden.
slurm.confAWS ParallelClusterJedes Wörterbuch in der Liste wird als separate Zeile angezeigt, die der Konfigurationsdatei hinzugefügt wird. Slurm Sie können entweder einfache oder komplexe Parameter angeben.
Einfache Parameter bestehen aus einem einzigen key pair, wie in den folgenden Beispielen gezeigt:
- Param1: 100 - Param2: "SubParam1,SubParam2=SubValue2"In der Slurm Konfiguration gerendertes Beispiel:
Param1=100 Param2=SubParam1,SubParam2=SubValue2Komplexe Slurm Konfigurationsparameter bestehen aus mehreren durch Leerzeichen getrennten Schlüssel-Wert-Paaren, wie in den nächsten Beispielen gezeigt:
- NodeName: test-nodes[1-10] CPUs: 4 RealMemory: 4196 ... # other node settings - NodeSet: test-nodeset Nodes: test-nodes[1-10] ... # other nodeset settings - PartitionName: test-partition Nodes: test-nodeset ... # other partition settingsBeispiel, gerendert in der Konfiguration: Slurm
NodeName=test-nodes[1-10] CPUs=4 RealMemory=4196 ... # other node settings NodeSet=test-nodeset Nodes=test-nodes[1-10] ... # other nodeset settings PartitionName=test-partition Nodes=test-nodeset ... # other partition settingsAnmerkung
Benutzerdefinierte Slurm Knoten dürfen die
-st--dy-Oder-Muster nicht in ihren Namen enthalten. Diese Muster sind Knoten vorbehalten, die von verwaltet werden AWS ParallelCluster.Wenn Sie benutzerdefinierte Slurm Konfigurationsparameter in angeben
CustomSlurmSettings, dürfen Sie keine benutzerdefinierten Slurm Konfigurationsparameter für angebenCustomSlurmSettingsIncludeFile.Sie können nur Slurm Konfigurationsparameter angeben, die in nicht auf der Sperrliste stehen.
CustomSlurmSettingsHinweise zu Slurm Konfigurationsparametern auf der Sperrliste finden Sie unter. Auf der Denim-Liste Slurm Konfigurationsparameter für CustomSlurmSettingsAWS ParallelCluster prüft nur, ob ein Parameter auf einer Sperrliste steht. AWS ParallelCluster validiert die Syntax oder Semantik Ihrer benutzerdefinierten Slurm Konfigurationsparameter nicht. Es liegt in Ihrer Verantwortung, Ihre benutzerdefinierten Slurm Konfigurationsparameter zu validieren. Ungültige benutzerdefinierte Slurm Konfigurationsparameter können zu Slurm Daemon-Ausfällen führen, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.
Weitere Hinweise zum Angeben von benutzerdefinierten Slurm Konfigurationsparametern mit finden Sie AWS ParallelCluster unterSlurm Anpassung der Konfiguration.
Weitere Informationen zu Slurm Konfigurationsparametern finden Sie in der Dokumentation unter slurm.conf.
Slurm Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster CustomSlurmSettingsIncludeFile(Fakultativ,String)-
Definiert die benutzerdefinierten Slurm Einstellungen, die für den gesamten Cluster gelten.
Gibt die benutzerdefinierte Slurm Datei an, die aus benutzerdefinierten Slurm Konfigurationsparametern besteht, die am Ende der AWS ParallelCluster generierten
slurm.confDatei angehängt werden.Sie müssen den Pfad zur Datei angeben. Der Pfad kann mit
https://oder beginnens3://.Wenn Sie benutzerdefinierte Slurm Konfigurationsparameter für angeben
CustomSlurmSettingsIncludeFile, dürfen Sie keine benutzerdefinierten Slurm Konfigurationsparameter für angebenCustomSlurmSettings.Anmerkung
Benutzerdefinierte Slurm Knoten dürfen keine
-dy-Oder-Muster in ihren Namen enthalten.-st-Diese Muster sind Knoten vorbehalten, die von verwaltet werden AWS ParallelCluster.Sie können nur Slurm Konfigurationsparameter angeben, die nicht auf der Sperrliste stehen.
CustomSlurmSettingsIncludeFileHinweise zu Slurm Konfigurationsparametern auf der Sperrliste finden Sie unter. Auf der Denim-Liste Slurm Konfigurationsparameter für CustomSlurmSettingsAWS ParallelCluster prüft nur, ob ein Parameter auf einer Sperrliste steht. AWS ParallelCluster validiert die Syntax oder Semantik Ihrer benutzerdefinierten Slurm Konfigurationsparameter nicht. Es liegt in Ihrer Verantwortung, Ihre benutzerdefinierten Slurm Konfigurationsparameter zu validieren. Ungültige benutzerdefinierte Slurm Konfigurationsparameter können zu Slurm Daemon-Ausfällen führen, die zu Fehlern bei der Clustererstellung und -aktualisierung führen können.
Weitere Hinweise zum Angeben von benutzerdefinierten Slurm Konfigurationsparametern mit finden Sie AWS ParallelCluster unterSlurm Anpassung der Konfiguration.
Weitere Informationen zu Slurm Konfigurationsparametern finden Sie in der Dokumentation unter slurm.conf.
Slurm Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Anmerkung
CustomSlurmSettingswird ab Version 3.6.0 unterstützt. AWS ParallelCluster
Database
(Optional) Definiert die Einstellungen zur Aktivierung von Slurm Accounting auf dem Cluster. Weitere Informationen finden Sie unter Slurm Abrechnung mit AWS ParallelCluster.
Database: Uri:stringUserName:stringPasswordSecretArn:string
Database-Eigenschaften
Uri(Erforderlich,String)-
Die Adresse des Datenbankservers, der als Backend für die Slurm Buchhaltung verwendet wird. Dieser URI muss als formatiert sein
host:portund darf kein Schema enthalten, z. B.mysql://Der Host kann entweder eine IP-Adresse oder ein DNS-Name sein, der vom Hauptknoten aufgelöst werden kann. Wenn kein Port bereitgestellt wird, wird der MySQL Standardport 3306 AWS ParallelCluster verwendet.AWS ParallelCluster bootet die Slurm Accounting-Datenbank in den Cluster und muss auf die Datenbank zugreifen.
Die Datenbank muss erreichbar sein, bevor Folgendes passiert:
-
Ein Cluster wird erstellt.
-
SlurmDie Kontoführung wird mit einem Cluster-Update aktiviert.
-
UserName(Erforderlich,String)-
Die Identität, die Slurm verwendet wird, um eine Verbindung mit der Datenbank herzustellen, Kontoführungsprotokolle zu schreiben und Abfragen durchzuführen. Der Benutzer muss sowohl Lese- als auch Schreibberechtigungen für die Datenbank haben.
PasswordSecretArn(Erforderlich,String)-
Der Amazon-Ressourcenname (ARN) des AWS Secrets Manager Geheimnisses, das das
UserNameKlartext-Passwort enthält. Dieses Passwort wird zusammen mitUserNameSlurm Accounting zur Authentifizierung auf dem Datenbankserver verwendet.Anmerkung
-
Wenn Sie mit der AWS Secrets Manager Konsole ein Geheimnis erstellen, achten Sie darauf, „Andere Art von Geheimnis“ und Klartext auszuwählen und nur den Passworttext in das Geheimnis aufzunehmen.
-
Sie können das Zeichen '#' nicht im Datenbankpasswort verwenden, da Slurm es in slurmdbd.conf nicht unterstützt.
Ob der Benutzer dazu berechtigt
PasswordSecretArnist DescribeSecret, wird überprüft.PasswordSecretArnist gültig, wenn das angegebene Geheimnis existiert. Wenn die Benutzer-IAM-Richtlinie dies nicht beinhaltetDescribeSecret,PasswordSecretArnnicht validiert wird und eine Warnmeldung angezeigt wird. Weitere Informationen finden Sie unter AWS ParallelCluster pclusterGrundlegende Benutzerrichtlinie.Wenn Sie ein Update
PasswordSecretArndurchführen, muss die Rechenflotte gestoppt werden. Wenn sich der geheime Wert ändert und der geheime ARN sich nicht ändert, wird der Cluster nicht automatisch mit dem neuen Datenbankkennwort aktualisiert. Um den Cluster für den neuen geheimen Wert zu aktualisieren, müssen Sie den folgenden Befehl vom Hauptknoten aus ausführen, nachdem die Compute-Flotte gestoppt wurde.$sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.shWarnung
Wir empfehlen, das Datenbankkennwort nur zu ändern, wenn die Rechenflotte gestoppt ist, um den Verlust von Buchhaltungsdaten zu vermeiden.
-
DatabaseName(Optional,String)-
Name der Datenbank auf dem Datenbankserver (definiert durch den Parameter Uri), die für Slurm Accounting verwendet werden soll.
Der Name der Datenbank kann Kleinbuchstaben, Zahlen und Unterstriche enthalten. Der Name darf nicht länger als 64 Zeichen sein.
Dieser Parameter ist dem
StorageLocParameter von slurmdbd.confzugeordnet. Wenn
DatabaseNamenicht angegeben, ParallelCluster wird der Name des Clusters verwendet, um einen Wert für zu definieren.StorageLocDie Aktualisierung von
DatabaseNameist zulässig, wobei die folgenden Überlegungen zu beachten sind:-
Wenn eine Datenbank mit einem Namen noch DatabaseName nicht auf dem Datenbankserver existiert, erstellt slurmdbd sie. Es liegt in Ihrer Verantwortung, die neue Datenbank nach Bedarf neu zu konfigurieren (z. B. Hinzufügen der Buchhaltungseinheiten — Cluster, Konten, Benutzer QOSs, Assoziationen usw.).
-
Wenn auf dem Datenbankserver DatabaseName bereits eine Datenbank mit einem Namen existiert, wird slurmdbd sie für die Buchhaltungsfunktion verwenden. Slurm
-
Anmerkung
Databasewird ab Version 3.3.0 hinzugefügt.
ExternalSlurmdbd
(Optional) Definiert die Einstellungen, um Slurm Accounting mit einem externen Slurmdbd-Server zu aktivieren. Weitere Informationen finden Sie unter Slurm Buchhaltung mit. AWS ParallelCluster
ExternalSlurmdbd: Host:stringPort:integer
ExternalSlurmdbd-Eigenschaften
Host(Erforderlich,String)-
Die Adresse des externen Slurmdbd-Servers für die Buchhaltung. Slurm Der Host kann entweder eine IP-Adresse oder ein DNS-Name sein, der vom Hauptknoten aufgelöst werden kann.
Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Port(Fakultativ,Integer)-
Der Port, auf den der Slurmdbd-Dienst hört. Der Standardwert ist
6819.Aktualisierungsrichtlinie: Diese Einstellung kann während eines Updates geändert werden.
Dns
(Optional) Definiert die EinstellungenSlurm, die für den gesamten Cluster gelten.
Dns: DisableManagedDns:booleanHostedZoneId:stringUseEc2Hostnames:boolean
Dns-Eigenschaften
DisableManagedDns(Optional,Boolean)-
Falls
true, werden die DNS-Einträge für den Cluster nicht erstellt und die Slurm Knotennamen können nicht aufgelöst werden.AWS ParallelCluster Erstellt standardmäßig eine Route 53-Hosting-Zone, in der Knoten beim Start registriert werden. Der Standardwert ist
false. Wenn auf gesetztDisableManagedDnsisttrue, wird die Hosting-Zone nicht von erstellt AWS ParallelCluster.Informationen zur Verwendung dieser Einstellung zur Bereitstellung von Clustern in Subnetzen ohne Internetzugang finden Sie unterAWS ParallelCluster in einem einzigen Subnetz ohne Internetzugang.
Warnung
Für den ordnungsgemäßen Betrieb des Clusters ist ein System zur Namensauflösung erforderlich. Wenn auf gesetzt
DisableManagedDnsisttrue, müssen Sie ein System zur Namensauflösung bereitstellen. Um den EC2 Amazon-Standard-DNS zu verwenden, stellen Sie ihnUseEc2Hostnamesauf eintrue. Alternativ können Sie Ihren eigenen DNS-Resolver konfigurieren und sicherstellen, dass die Knotennamen registriert sind, wenn Instances gestartet werden. Sie können dies beispielsweise tun, indem Sie CustomActions/OnNodeStartkonfigurieren.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
HostedZoneId(Optional,String)-
Definiert eine benutzerdefinierte Route 53-Hosting-Zonen-ID, die für die DNS-Namensauflösung für den Cluster verwendet wird. Falls angegeben, werden Clusterknoten in der angegebenen Hosting-Zone AWS ParallelCluster registriert und keine verwaltete Hosting-Zone erstellt.
Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
UseEc2Hostnames(Optional,Boolean)-
Falls
true, sind Cluster-Rechenknoten mit dem EC2 Standard-Hostnamen konfiguriert. Der SlurmNodeHostNamewird ebenfalls mit diesen Informationen aktualisiert. Der Standardwert istfalse.Informationen zur Verwendung dieser Einstellung zur Bereitstellung von Clustern in Subnetzen ohne Internetzugang finden Sie unterAWS ParallelCluster in einem einzigen Subnetz ohne Internetzugang.
Anmerkung
Dieser Hinweis ist ab AWS ParallelCluster Version 3.3.0 nicht relevant.
Für AWS ParallelCluster unterstützte Versionen vor 3.3.0:
Wenn auf gesetzt
UseEc2Hostnamesisttrue, wird die Slurm-Konfigurationsdatei mit den Skripten AWS ParallelClusterprologundepiloggesetzt:-
prologwird ausgeführt, um Knoteninformationen zu/etc/hostsden Rechenknoten hinzuzufügen, wenn jeder Job zugewiesen ist. -
epilogwird ausgeführt, um Inhalte zu bereinigen, die von geschrieben wurdenprolog.
Um benutzerdefinierte
epilogSkriptsprologoder Skripts hinzuzufügen, fügen Sie sie den jeweiligen/opt/slurm/etc/pcluster/epilog.d/Ordnern/opt/slurm/etc/pcluster/prolog.d/oder hinzu.Aktualisierungsrichtlinie: Wenn diese Einstellung geändert wird, ist das Update nicht zulässig.
-