Aktualisierung oder Austausch der Head-Knoten-Instanz Speichern Sie Daten von kurzlebigen Laufwerken Stoppen und starten Sie den Hauptknoten eines Clusters

AMI-Patching und Austausch von EC2 Amazon-Instances

Um sicherzustellen, dass sich alle dynamisch gestarteten Cluster-Rechenknoten konsistent verhalten, AWS ParallelCluster deaktiviert die automatischen Betriebssystemupdates der Cluster-Instance. Darüber hinaus wird für jede Version von AWS ParallelCluster AMIs AWS ParallelCluster und der zugehörigen CLI ein bestimmter Satz von erstellt. Dieser spezifische Satz von AMIs bleibt unverändert und wird nur von der AWS ParallelCluster Version unterstützt, für die sie erstellt wurden. AWS ParallelCluster AMIsfür veröffentlichte Versionen, die nicht aktualisiert wurden.

Aufgrund aufkommender Sicherheitsprobleme möchten Kunden jedoch möglicherweise Patches zu diesen hinzufügen AMIs und dann ihre Cluster mit dem gepatchten AMI aktualisieren. Dies entspricht dem Modell der AWS ParallelCluster gemeinsamen Verantwortung.

Um den spezifischen Satz von zu sehen, der von der AWS ParallelCluster CLI-Version AWS ParallelCluster AMIs unterstützt wird, die Sie gerade verwenden, führen Sie Folgendes aus:


$ pcluster version
$ pcluster list-official-images

Der AWS ParallelCluster Head-Knoten ist eine statische Instanz, die Sie manuell aktualisieren können. Der Neustart und der Neustart des Hauptknotens werden ab AWS ParallelCluster Version 3.0.0 vollständig unterstützt.

Wenn Ihre Instances über ephemere Instance-Speicher verfügen, müssen Sie daran denken, die Instance-Speicherdaten vor manuellen Updates zu speichern. Weitere Informationen finden Sie unter HeadNodeLocalStorage//EphemeralVolumeCluster-Konfiguration und Instance-Typen mit Instance-Speicher-Volumes im EC2 Amazon-Benutzerhandbuch für Linux-Instances.

Die Rechenknoten sind kurzlebige Instances. Standardmäßig können Sie nur vom Hauptknoten aus auf sie zugreifen. Ab AWS ParallelCluster Version 3.0.0 können Sie das mit Compute-Instances verknüpfte AMI aktualisieren, indem Sie den CustomAmiParameter Scheduling//SlurmQueuesImage/ändern und den pcluster update-cluster Befehl ausführen, nachdem Sie die Compute-Flotte gestoppt haben mitpcluster update-compute-fleet:


$ pcluster update-compute-fleet-status --status STOP_REQUESTED

Es ist möglich, die Erstellung eines aktualisierten benutzerdefinierten AMI für die Rechenknoten mithilfe einer der folgenden Methoden zu automatisieren:

Verwenden Sie den pcluster build-image Befehl mit einem aktualisierten Build/ParentImage.
Führen Sie den Build mit Build/UpdateOsPackages/Enabled: austrue.

Aktualisierung oder Austausch der Head-Knoten-Instanz

Unter bestimmten Umständen müssen Sie den Hauptknoten möglicherweise neu starten oder neu starten. Dies ist beispielsweise erforderlich, wenn Sie das Betriebssystem manuell aktualisieren oder wenn eine geplante Außerbetriebnahme einer AWS Instanz stattfindet, die einen Neustart der Hauptknoteninstanz erfordert.

Wenn Ihre Instance nicht über kurzlebige Laufwerke verfügt, können Sie sie jederzeit beenden und erneut starten. Im Falle einer geplanten Außerbetriebnahme wird beim Starten der gestoppten Instance diese migriert, sodass sie die neue Hardware verwendet.

Ebenso können Sie eine Instance, die keine Instance-Speicher hat, manuell stoppen und starten. Fahren Sie in diesem Fall und in anderen Fällen von Instances ohne ephemere Volumes fort. Stoppen und starten Sie den Hauptknoten eines Clusters

Wenn Ihre Instance über kurzlebige Laufwerke verfügt und diese gestoppt wurde, gehen die Daten im Instance-Speicher verloren. Sie können anhand der Tabelle unter Instance-Speicher-Volumes ermitteln, ob der für den Head-Knoten verwendete Instance-Typ Instance-Speicher enthält.

Speichern Sie Daten von kurzlebigen Laufwerken

Ab AWS ParallelCluster Version 3.0.0 werden der Neustart und der Neustart des Head-Knotens für jeden Instance-Typ vollständig unterstützt. Wenn Instances jedoch über ein kurzlebiges Laufwerk verfügen, gehen dessen Daten verloren. Folgen Sie den nächsten Schritten, um Ihre Daten vor dem Neustart oder Neustart eines Hauptknotens beizubehalten.

Um zu überprüfen, ob Sie über Daten verfügen, die aufbewahrt werden müssen, sehen Sie sich den Inhalt im MountDirOrdner EphemeralVolume/an (/scratchstandardmäßig).

Sie können die Daten auf das Root-Volume oder die an den Cluster angeschlossenen gemeinsam genutzten Speichersysteme wie Amazon FSx, Amazon EFS oder Amazon EBS übertragen. Beachten Sie, dass für die Datenübertragung in den Remotespeicher zusätzliche Kosten anfallen können.

Fahren Sie nach dem Speichern der Daten fort mitStoppen und starten Sie den Hauptknoten eines Clusters.

Stoppen und starten Sie den Hauptknoten eines Clusters

Stellen Sie sicher, dass im Cluster keine laufenden Jobs vorhanden sind.

Bei der Verwendung eines Slurm Scheduler:
- Wenn die sbatch --no-requeue Option nicht angegeben ist, werden laufende Jobs in die Warteschlange gestellt.
- Wenn die --no-requeue Option angegeben ist, schlagen laufende Jobs fehl.

Beantragen Sie einen Stopp der Cluster-Compute-Flotte:


$ pcluster update-compute-fleet --cluster-name cluster-name --status STOP_REQUESTED
{
  "status": "STOP_REQUESTED",
  ...
}

Warten Sie, bis der Status der Compute-Flotte wie folgt lautetSTOPPED:


$ pcluster update-compute-fleet --cluster-name cluster-name --status STOP_REQUESTED
{
  "status": "STOPPED",
  ...
}

Für manuelle Updates mit einem Neustart des Betriebssystems oder einer Instanz können Sie die Option AWS-Managementkonsole oder verwenden AWS CLI. Im Folgenden finden Sie ein Beispiel für die Verwendung von AWS CLI.


# Retrieve head node instance id
$ pcluster describe-cluster --cluster-name cluster-name --status STOP_REQUESTED
{
  "headNode": {
  "instanceId": "i-1234567890abcdef0",
  ...
},
  ...
}
# stop and start the instance
$ aws ec2 stop-instances --instance-ids 1234567890abcdef0
{
  "StoppingInstances": [
    {
      "CurrentState": {
        "Name": "stopping"
        ...
      },
      "InstanceId": "i-1234567890abcdef0",
      "PreviousState": {
        "Name": "running"
        ...
      }
    }
  ]
}
$ aws ec2 start-instances --instance-ids 1234567890abcdef0
{
  "StartingInstances": [
    {
      "CurrentState": {
        "Name": "pending"
        ...
      },
      "InstanceId": "i-1234567890abcdef0",
      "PreviousState": {
        "Name": "stopped"
        ...
      }
    }
  ]
}

Starten Sie die Cluster-Compute-Flotte:


$ pcluster update-compute-fleet --cluster-name cluster-name --status START_REQUESTED
{
  "status": "START_REQUESTED",
  ...
}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Starten Sie Instances mit Capacity Blocks (CB)

Betriebssysteme