

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Fehler bei der Initialisierung von Rechenknoten werden angezeigt
<a name="troubleshooting-fc-v3-compute-node-initialization-v3"></a>

In den folgenden Abschnitten finden Sie Tipps zur Fehlerbehebung für den Fall, dass bei der Initialisierung von Compute-Knoten Fehler auftreten. Dazu gehören Bootstrap-Fehler, die Anzeige von Fehlern in den Protokollen und die Vorgehensweise, wenn keines der Szenarien auf Ihre spezifische Situation zutrifft.

**Topics**
+ [Einsehen `Node bootstrap error` in `clustermgtd.log`](compute-node-initialization-bootstrap-error-v3.md)
+ [Ich habe Kapazitätsreservierungen auf Abruf (ODCRs) oder zonale Reserved Instances konfiguriert](compute-node-initialization-odcr-v3.md)
+ [Ich sehe `An error occurred (VcpuLimitExceeded)``slurm_resume.log`, wenn ich einen Job nicht ausführen kann, oder wenn ich keinen Cluster erstellen kann `clustermgtd.log`](compute-node-initialization-vpc-limit-v3.md)
+ [Ich sehe `An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`, wann ich einen Job nicht ausführen kann, oder in`clustermgtd.log`, wann ich keinen Cluster erstellen kann](compute-node-initialization-ice-failure-v3.md)
+ [Ich sehe, dass sich die Knoten im Zustand von befinden `DOWN` `Reason (Code:InsufficientInstanceCapacity)...`](compute-node-initialization-down-nodes-v3.md)
+ [Seht rein `cannot change locale (en_US.utf-8) because it has an invalid name` `slurm_resume.log`](compute-node-initialization-locale-v3.md)
+ [Keines der vorherigen Szenarien trifft auf meine Situation zu](compute-node-initialization-not-found-v3.md)

# Einsehen `Node bootstrap error` in `clustermgtd.log`
<a name="compute-node-initialization-bootstrap-error-v3"></a>

Das Problem hängt damit zusammen, dass Rechenknoten nicht booten können. Informationen zum Debuggen eines Problems im geschützten Clustermodus finden Sie unter. [Wie debuggt man den geschützten Modus](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3)

# Ich habe Kapazitätsreservierungen auf Abruf (ODCRs) oder zonale Reserved Instances konfiguriert
<a name="compute-node-initialization-odcr-v3"></a>

## ODCRs dazu gehören Instances mit mehreren Netzwerkschnittstellen wie P4d, P4de und Trainium (Trn) AWS
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

Überprüfen Sie in der Cluster-Konfigurationsdatei, ob sich der in einem öffentlichen Subnetz `HeadNode` befindet und ob sich die Rechenknoten in einem privaten Subnetz befinden.

## ODCRs sind auf ODCRS ausgerichtet
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### Ich sehe das, `Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.` obwohl ich es bereits eingerichtet habe, indem ich die Anweisungen `/opt/slurm/etc/pcluster/run_instances_overrides.json` in befolge [Starten Sie Instances mit On-Demand-Kapazitätsreservierungen (ODCR)](launch-instances-odcr-v3.md)
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

Wenn Sie die AWS ParallelCluster Versionen 3.1.1 bis 3.2.1 mit Targeted ODCRs verwenden und auch die [JSON-Datei mit Run-Instances überschreiben](launch-instances-odcr-v3.md), ist die JSON-Datei möglicherweise nicht richtig formatiert. Möglicherweise wird ein Fehler angezeigt`clustermgtd.log`, z. B. in dem folgenden:

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

Stellen Sie sicher, dass das JSON-Dateiformat korrekt ist, indem Sie Folgendes ausführen:

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### Zeigt `Found RunInstances parameters override.` an`clustermgtd.log`, wann die Clustererstellung fehlgeschlagen ist oder `slurm_resume.log` wann die Ausführung des Jobs fehlgeschlagen ist
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

Wenn Sie [Run-Instances verwenden, die die JSON-Datei überschreiben](launch-instances-odcr-v3.md), überprüfen Sie, ob Sie den Warteschlangennamen und den Namen der Rechenressourcen in der `/opt/slurm/etc/pcluster/run_instances_overrides.json` Datei korrekt angegeben haben.

### Ich sehe `An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`, wenn ich einen Job nicht ausführen kann oder `clustermgtd.log` wann ich keinen Cluster erstellen kann
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### Verwenden von PG-ODCR (Placement Group ODCR)
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

Wenn Sie ein ODCR mit einer zugehörigen Platzierungsgruppe erstellen, muss derselbe Platzierungsgruppenname in der Konfigurationsdatei verwendet werden. Geben Sie den [Namen der entsprechenden Platzierungsgruppe](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup) in der Cluster-Konfiguration ein.

#### Verwendung zonaler Reserved Instances
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

Wenn Sie zonale Reserved Instances mit`PlacementGroup`/`Enabled`bis `true` in der Cluster-Konfiguration verwenden, wird möglicherweise ein Fehler wie der folgende angezeigt:

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

Dieser Fehler tritt möglicherweise auf, weil sich die zonalen Reserved Instances nicht in derselben UC (oder Spine) befinden, was bei der Verwendung von Platzierungsgruppen zu Fehlern bei unzureichender Kapazität (ICEs) führen kann. Sie können diesen Fall überprüfen, indem Sie die `PlacementGroup` Gruppeneinstellung in der Clusterkonfiguration deaktivieren, um festzustellen, ob der Cluster die Instances zuweisen kann.

# Ich sehe `An error occurred (VcpuLimitExceeded)``slurm_resume.log`, wenn ich einen Job nicht ausführen kann, oder wenn ich keinen Cluster erstellen kann `clustermgtd.log`
<a name="compute-node-initialization-vpc-limit-v3"></a>

Überprüfen Sie die vCPU-Limits in Ihrem Konto für den spezifischen Amazon EC2 EC2-Instance-Typ, den Sie verwenden. Wenn Sie null oder weniger v sehen, CPUs als Sie anfordern, fordern Sie eine Erhöhung Ihrer Limits an. Informationen darüber, wie Sie aktuelle Limits einsehen und neue Limits anfordern können, finden Sie unter [Amazon EC2-Servicekontingente](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html) im *Amazon EC2-Benutzerhandbuch*.

# Ich sehe `An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`, wann ich einen Job nicht ausführen kann, oder in`clustermgtd.log`, wann ich keinen Cluster erstellen kann
<a name="compute-node-initialization-ice-failure-v3"></a>

Sie haben ein Problem mit unzureichender Kapazität. Folgen Sie dem [https://aws.amazon.com/premiumsupport/Knowledge-center/ec2-/, um das Problem zu beheben insufficient-capacity-errors](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/).

# Ich sehe, dass sich die Knoten im Zustand von befinden `DOWN` `Reason (Code:InsufficientInstanceCapacity)...`
<a name="compute-node-initialization-down-nodes-v3"></a>

Sie haben ein Problem mit unzureichender Kapazität. Folgen Sie dem [https://aws.amazon.com/premiumsupport/Knowledge-center/ec2-/, um das Problem zu beheben insufficient-capacity-errors](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/). Weitere Informationen zum schnellen Failover-Modus für unzureichende AWS ParallelCluster Kapazität finden Sie unter. [Slurmschneller Cluster-Failover mit unzureichender Kapazität](slurm-short-capacity-fail-mode-v3.md)

# Seht rein `cannot change locale (en_US.utf-8) because it has an invalid name` `slurm_resume.log`
<a name="compute-node-initialization-locale-v3"></a>

Dies kann passieren, wenn der `yum` Installationsvorgang nicht erfolgreich war und die Gebietsschemaeinstellungen inkonsistent geblieben sind. Dies kann beispielsweise der Fall sein, wenn ein Benutzer den Installationsvorgang beendet.

**Gehen Sie wie folgt vor, um die Ursache zu überprüfen:**
+ Führen Sie `su - pcluster-admin`.

  Die Shell zeigt einen Fehler an, `cannot change locale...no such file or directory` z. B.
+ Führen Sie `localedef --list`.

  Gibt eine leere Liste zurück oder enthält nicht das Standardgebietsschema.
+ Überprüfen Sie den letzten `yum` Befehl mit `yum history` und`yum history info #ID`. Hat die letzte ID`Return-Code: Success`?

  Wenn die letzte ID nicht vorhanden ist`Return-Code: Success`, wurden die Skripts nach der Installation möglicherweise nicht erfolgreich ausgeführt.

Um das Problem zu beheben, versuchen Sie, das Gebietsschema mit neu zu erstellen. `yum reinstall glibc-all-langpacks` Nach der Neuerstellung `su - pcluster-admin` wird kein Fehler oder keine Warnung angezeigt, wenn das Problem behoben ist.

# Keines der vorherigen Szenarien trifft auf meine Situation zu
<a name="compute-node-initialization-not-found-v3"></a>

Informationen zur Behebung von Problemen bei der Initialisierung von Compute-Knoten finden Sie unter[Behebung von Problemen bei der Knoteninitialisierung](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init).

Prüfen Sie, ob Ihr Szenario unter [GitHub Bekannte Probleme](https://github.com/aws/aws-parallelcluster/wiki) unter AWS ParallelCluster on GitHub behandelt wird.