Knotenüberwachungsagent Automatische Knotenreparatur

Unterstützung für die Verbesserung dieser Seite beitragen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Erkennen Sie Probleme mit dem Knotenstatus und aktivieren Sie die automatische Knotenreparatur

Der Knotenstatus bezieht sich auf den Betriebsstatus und die Fähigkeit eines Kubernetes-Knotens, Workloads effektiv auszuführen. Ein fehlerfreier Knoten hält die erwartete Netzwerkkonnektivität aufrecht, verfügt über ausreichende Rechen- und Speicherressourcen und kann Workloads ohne Unterbrechung erfolgreich ausführen.

Um bei der Aufrechterhaltung fehlerfreier Knoten in EKS-Clustern zu helfen, bietet EKS den Knotenüberwachungsagenten und die automatische Knotenreparatur. Diese Funktionen werden bei EKS Auto Mode Compute automatisch aktiviert. Sie können die automatische Knotenreparatur auch mit von EKS verwalteten Knotengruppen und Karpenter verwenden und den EKS-Knotenüberwachungsagenten mit allen EKS-Compute-Typen außer Fargate verwenden. AWS Der EKS-Knotenüberwachungsagent und die automatische Knotenreparatur sind am effektivsten, wenn sie zusammen verwendet werden. Sie können jedoch auch einzeln in EKS-Clustern verwendet werden.

Wichtig

Der Knoten-Überwachungsagente und die Knotenreparatur sind nur in Linux verfügbar. Diese Features sind unter Windows nicht verfügbar.

Knotenüberwachungsagent

Der EKS-Knotenüberwachungsagent liest Knotenprotokolle, um Gesundheitsprobleme zu erkennen. Er analysiert Protokolle, um Fehler zu erkennen, und zeigt Statusinformationen über den Gesundheitszustand der Knoten an. Für jede Kategorie erkannter Probleme wendet der Agent eine für die Worker-Knoten spezifische Methode NodeCondition an. Ausführliche Informationen zu den vom EKS-Knotenüberwachungsagenten festgestellten Problemen mit dem Knotenstatus finden Sie unterErkennen Sie Probleme mit dem Knotenüberwachungsagenten von EKS.

EKS Auto Mode Compute beinhaltet den Node Monitoring Agent. Für andere EKS-Berechnungstypen können Sie den Node Monitoring Agent als EKS-Add-on hinzufügen oder ihn mit Kubernetes-Tools wie Helm verwalten. Weitere Informationen finden Sie unter Konfigurieren Sie den Node Monitoring Agent.

Mit dem EKS-Node-Monitoring-Agenten werden die folgenden Kategorien von Problemen mit dem Knotenstatus als Knotenbedingungen angezeigt. Beachten Sie, ReadyDiskPressure, und MemoryPressure sind Standardbedingungen für Kubernetes-Knoten, die auch ohne den EKS-Knotenüberwachungsagenten angezeigt werden.

Zustand des Knotens	Description
AcceleratedHardwareReady	AcceleratedHardwareReady gibt an, ob die beschleunigte Hardware (GPU, Neuron) auf dem Knoten ordnungsgemäß funktioniert.
ContainerRuntimeReady	ContainerRuntimeReady gibt an, ob die Container-Laufzeit (containerd usw.) korrekt funktioniert und Container ausführen kann.
DiskPressure	DiskPressure ist eine Standardbedingung für Kubernetes, die darauf hinweist, dass der Knoten unter Druck steht (geringer Festplattenspeicher oder hoher I/O).
KernelReady	KernelReady gibt an, ob der Kernel ohne kritische Fehler, Panik oder Ressourcenerschöpfung ordnungsgemäß funktioniert.
MemoryPressure	MemoryPressure ist eine Standardbedingung für Kubernetes, die darauf hinweist, dass der Knoten unter Speicherdruck steht (zu wenig verfügbarer Speicher).
NetworkingReady	NetworkingReady gibt an, ob der Netzwerkstapel des Knotens ordnungsgemäß funktioniert (Schnittstellen, Routing, Konnektivität).
StorageReady	StorageReady gibt an, ob das Speichersubsystem des Knotens ordnungsgemäß funktioniert (Festplatten, Dateisysteme, I/O).
Bereit	Bereit ist die Standardbedingung für Kubernetes, die angibt, dass der Knoten fehlerfrei und bereit ist, Pods anzunehmen.

Automatische Knotenreparatur

Die automatische Knotenreparatur von EKS überwacht kontinuierlich den Zustand der Knoten, reagiert auf erkannte Probleme und ersetzt Knoten oder startet sie neu, wenn möglich. Dies verbessert die Zuverlässigkeit des Clusters bei minimalem manuellem Eingriff und trägt dazu bei, die Ausfallzeiten von Anwendungen zu reduzieren.

Die automatische EKS-Knotenreparatur reagiert von selbst auf die Ready Bedingungen im Kubelet, auf alle manuell gelöschten Knotenobjekte und auf von EKS verwaltete Knotengruppeninstanzen, die dem Cluster nicht beitreten können. Wenn die automatische EKS-Knotenreparatur aktiviert ist und der Node Monitoring Agent installiert ist, reagiert die automatische Knotenreparatur von EKS auf zusätzliche Knotenbedingungen:AcceleratedHardwareReady,ContainerRuntimeReady, KernelReadyNetworkingReady, und. StorageReady

Die automatische EKS-Knotenreparatur reagiert nicht auf standardmäßige Kubernetes DiskPressure - MemoryPressure oder PIDPressure Knotenbedingungen. Diese Bedingungen deuten häufig eher auf Probleme mit dem Anwendungsverhalten, der Workload-Konfiguration oder Ressourcenbeschränkungen als auf Ausfälle auf Knotenebene hin, was es schwierig macht, eine geeignete Standardreparaturaktion zu ermitteln. In diesen Szenarien unterliegen Workloads dem Verhalten von Kubernetes-Knotenüberlastung.

Weitere Informationen zur automatischen Knotenreparatur von EKS finden Sie unter. Automatisches Reparieren von Knoten in EKS-Clustern

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Benutzerdefinierte Entwicklungen

Erkennung des Knotenzustands