Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AMI-Patching und Austausch von EC2 Amazon-Instances
Um sicherzustellen, dass sich alle dynamisch gestarteten Cluster-Rechenknoten konsistent verhalten, AWS ParallelCluster deaktiviert die automatischen Betriebssystemupdates der Cluster-Instance. Darüber hinaus wird für jede Version von AWS ParallelCluster AMIs AWS ParallelCluster und der zugehörigen CLI ein bestimmter Satz von erstellt. Dieser spezifische Satz von AMIs bleibt unverändert und wird nur von der AWS ParallelCluster Version unterstützt, für die sie erstellt wurden. AWS ParallelCluster AMIsfür veröffentlichte Versionen, die nicht aktualisiert wurden.
Aufgrund aufkommender Sicherheitsprobleme möchten Kunden jedoch möglicherweise Patches zu diesen hinzufügen AMIs und dann ihre Cluster mit dem gepatchten AMI aktualisieren. Dies entspricht dem Modell der AWS ParallelCluster gemeinsamen Verantwortung.
Um den spezifischen Satz von zu sehen, der von der AWS ParallelCluster CLI-Version AWS ParallelCluster AMIs unterstützt wird, die Sie gerade verwenden, führen Sie Folgendes aus:
$
pcluster version
$
pcluster list-official-images
Der AWS ParallelCluster Head-Knoten ist eine statische Instanz, die Sie manuell aktualisieren können. Der Neustart und der Neustart des Hauptknotens werden ab AWS ParallelCluster Version 3.0.0 vollständig unterstützt.
Wenn Ihre Instances über ephemere Instance-Speicher verfügen, müssen Sie daran denken, die Instance-Speicherdaten vor manuellen Updates zu speichern. Weitere Informationen finden Sie unter HeadNodeLocalStorage//EphemeralVolumeCluster-Konfiguration und Instance-Typen mit Instance-Speicher-Volumes im EC2 Amazon-Benutzerhandbuch für Linux-Instances.
Die Rechenknoten sind kurzlebige Instances. Standardmäßig können Sie nur vom Hauptknoten aus auf sie zugreifen. Ab AWS ParallelCluster Version 3.0.0 können Sie das mit Compute-Instances verknüpfte AMI aktualisieren, indem Sie den CustomAmiParameter Scheduling//SlurmQueuesImage/ändern und den pcluster update-cluster Befehl ausführen, nachdem Sie die Compute-Flotte gestoppt haben mitpcluster update-compute-fleet:
$
pcluster update-compute-fleet-status --status STOP_REQUESTED
Es ist möglich, die Erstellung eines aktualisierten benutzerdefinierten AMI für die Rechenknoten mithilfe einer der folgenden Methoden zu automatisieren:
-
Verwenden Sie den pcluster build-image Befehl mit einem aktualisierten Build/ParentImage.
-
Führen Sie den Build mit Build/UpdateOsPackages/Enabled: aus
true
.
Aktualisierung oder Austausch der Head-Knoten-Instanz
Unter bestimmten Umständen müssen Sie den Hauptknoten möglicherweise neu starten oder neu starten. Dies ist beispielsweise erforderlich, wenn Sie das Betriebssystem manuell aktualisieren oder wenn eine geplante Außerbetriebnahme einer AWS Instanz stattfindet, die einen Neustart der Hauptknoteninstanz erfordert.
Wenn Ihre Instance nicht über kurzlebige Laufwerke verfügt, können Sie sie jederzeit beenden und erneut starten. Im Falle einer geplanten Außerbetriebnahme wird beim Starten der gestoppten Instance diese migriert, sodass sie die neue Hardware verwendet.
Ebenso können Sie eine Instance, die keine Instance-Speicher hat, manuell stoppen und starten. Fahren Sie in diesem Fall und in anderen Fällen von Instances ohne ephemere Volumes fort. Stoppen und starten Sie den Hauptknoten eines Clusters
Wenn Ihre Instance über kurzlebige Laufwerke verfügt und diese gestoppt wurde, gehen die Daten im Instance-Speicher verloren. Sie können anhand der Tabelle unter Instance-Speicher-Volumes ermitteln, ob der für den Head-Knoten verwendete Instance-Typ Instance-Speicher enthält.
Speichern Sie Daten von kurzlebigen Laufwerken
Ab AWS ParallelCluster Version 3.0.0 werden der Neustart und der Neustart des Head-Knotens für jeden Instance-Typ vollständig unterstützt. Wenn Instances jedoch über ein kurzlebiges Laufwerk verfügen, gehen dessen Daten verloren. Folgen Sie den nächsten Schritten, um Ihre Daten vor dem Neustart oder Neustart eines Hauptknotens beizubehalten.
Um zu überprüfen, ob Sie über Daten verfügen, die aufbewahrt werden müssen, sehen Sie sich den Inhalt im MountDirOrdner EphemeralVolume/an (/scratch
standardmäßig).
Sie können die Daten auf das Root-Volume oder die an den Cluster angeschlossenen gemeinsam genutzten Speichersysteme wie Amazon FSx, Amazon EFS oder Amazon EBS übertragen. Beachten Sie, dass für die Datenübertragung in den Remotespeicher zusätzliche Kosten anfallen können.
Fahren Sie nach dem Speichern der Daten fort mitStoppen und starten Sie den Hauptknoten eines Clusters.
Stoppen und starten Sie den Hauptknoten eines Clusters
-
Stellen Sie sicher, dass im Cluster keine laufenden Jobs vorhanden sind.
Bei der Verwendung eines Slurm Scheduler:
-
Wenn die
sbatch
--no-requeue
Option nicht angegeben ist, werden laufende Jobs in die Warteschlange gestellt. -
Wenn die
--no-requeue
Option angegeben ist, schlagen laufende Jobs fehl.
-
-
Beantragen Sie einen Stopp der Cluster-Compute-Flotte:
$
pcluster update-compute-fleet --cluster-name
cluster-name
--status STOP_REQUESTED{ "status": "STOP_REQUESTED", ... }
-
Warten Sie, bis der Status der Compute-Flotte wie folgt lautet
STOPPED
:$
pcluster update-compute-fleet --cluster-name
cluster-name
--status STOP_REQUESTED{ "status": "STOPPED", ... }
-
Für manuelle Updates mit einem Neustart des Betriebssystems oder einer Instanz können Sie die Option AWS Management Console oder verwenden AWS CLI. Im Folgenden finden Sie ein Beispiel für die Verwendung von AWS CLI.
# Retrieve head node instance id
$
pcluster describe-cluster --cluster-name
cluster-name
--status STOP_REQUESTED{ "headNode": { "instanceId": "i-1234567890abcdef0", ... }, ... }
# stop and start the instance$
aws ec2 stop-instances --instance-ids
1234567890abcdef0
{ "StoppingInstances": [ { "CurrentState": { "Name": "stopping" ... }, "InstanceId": "i-1234567890abcdef0", "PreviousState": { "Name": "running" ... } } ] }
$
aws ec2 start-instances --instance-ids
1234567890abcdef0
{ "StartingInstances": [ { "CurrentState": { "Name": "pending" ... }, "InstanceId": "i-1234567890abcdef0", "PreviousState": { "Name": "stopped" ... } } ] }
-
Starten Sie die Cluster-Compute-Flotte:
$
pcluster update-compute-fleet --cluster-name
cluster-name
--status START_REQUESTED{ "status": "START_REQUESTED", ... }