View a markdown version of this page

Automatische AMS-Behebung von Warnmeldungen - AMS-Benutzerhandbuch für Fortgeschrittene

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Automatische AMS-Behebung von Warnmeldungen

Nach der Überprüfung behebt AWS Managed Services (AMS) automatisch bestimmte Warnmeldungen gemäß den in diesem Abschnitt beschriebenen Bedingungen und Prozessen.

Name der Warnung Description Schwellenwerte Action

Defekter sicherer Kanal

Der Alarm für defekte sichere Kanäle wird auf Windows EC2-Instances ausgelöst, wenn die Instance die Verbindung zum AD-Domänencontroller verliert.

Der Schwellenwert lag in den letzten 15 Minuten zehnmal über dem definierten Wert.

Die automatische AMS-Wiederherstellung überprüft, ob die Instanz in SSM online ist, dass der Hostname nicht doppelt vorhanden ist und dass das AD-Computerobjekt auf den Stack abgestimmt ist. CloudFormation Die Behebung repariert die sichere Kanalverbindung, um den Zugriff auf die Instanz wiederherzustellen.

Die Statusüberprüfung ist fehlgeschlagen

Mögliche Hardwarefehler oder ein Fehlerstatus der Instanz.

Das System hat in den letzten 15 Minuten mindestens einmal einen ausgefallenen Status erkannt.

Die automatische AMS-Problembehebung überprüft zunächst, ob auf die Instanz zugegriffen werden kann. Wenn auf die Instance nicht zugegriffen werden kann, wird die Instance gestoppt und neu gestartet. Das Stopp-and-Start-Verfahren ermöglicht es der Instanz, auf neue zugrunde liegende Hardware zu migrieren. Weitere Informationen finden Sie im folgenden Abschnitt „EC2 Status Check Failure Remediation Automation“.

AMSLinuxDiskUsage

Wird ausgelöst, wenn die Festplattenbelegung von einem Mount-Punkt (zugewiesener Speicherplatz auf einem Volume) auf Ihrer EC2-Instance voll ausgelastet ist.

Der Schwellenwert lag in den letzten 30 Minuten sechsmal über dem definierten Wert.

Die automatische AMS-Wiederherstellung löscht zunächst temporäre Dateien. Wenn dadurch nicht genügend Festplattenspeicher frei wird, wird das Volume erweitert, um Ausfallzeiten zu vermeiden, wenn das Volume voll wird.

AMSWindowsDiskUsage

Wenn die Festplattenbelegung von 1 Mountpoint (zugewiesener Speicherplatz auf einem Volume) auf Ihrer EC2-Instance voll ausgelastet ist.

Der Schwellenwert lag in den letzten 30 Minuten sechsmal über dem definierten Wert.

Die automatische AMS-Wiederherstellung löscht zunächst temporäre Dateien. Wenn dadurch nicht genügend Festplattenspeicher frei wird, wird das Volume erweitert, um Ausfallzeiten zu vermeiden, wenn das Volume voll wird.

RDS-EVENT-0089

Die DB-Instance hat mehr als 90% ihres zugewiesenen Speichers verbraucht.

Der Speicher ist zu mehr als 90% zugewiesen.

Die automatische AMS-Problembehebung überprüft zunächst, ob sich die Datenbank in einem modifizierbaren und verfügbaren Zustand befindet oder ob der Speicher voll ist. Anschließend wird versucht, den zugewiesenen Speicher, die IOPS und den Speicherdurchsatz mithilfe eines Changesets zu erhöhen. CloudFormation Wenn eine Stack-Drift bereits erkannt wird, wird sie auf die RDS-API zurückgegriffen, um Ausfallzeiten zu vermeiden.

Diese Funktion kann deaktiviert werden, indem der RDS-DB-Instance das folgende Tag hinzugefügt wird: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

Der für die DB-Instance zugewiesene Speicherplatz ist erschöpft. Um das Problem zu lösen, weisen Sie zusätzlichen Speicher zu.

Der Speicherplatz ist zu 100% zugewiesen.

Die automatische AMS-Problembehebung überprüft zunächst, ob sich die Datenbank in einem modifizierbaren und verfügbaren Zustand befindet oder ob der Speicherplatz voll ist. Anschließend wird versucht, den zugewiesenen Speicher, die IOPS und den Speicherdurchsatz mithilfe eines Changesets zu erhöhen. CloudFormation Wenn eine Stack-Drift bereits erkannt wird, wird sie auf die RDS-API zurückgegriffen, um Ausfallzeiten zu vermeiden.

Diese Funktion kann deaktiviert werden, indem der RDS-DB-Instance das folgende Tag hinzugefügt wird: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

Der angeforderte zugewiesene Speicher erreicht oder überschreitet den konfigurierten maximalen Speicherschwellenwert.

Der maximale Speicherschwellenwert für die DB-Instance wurde ausgeschöpft oder ist größer oder gleich dem angeforderten zugewiesenen Speicher.

Die automatische AMS-Problembehebung überprüft zunächst, ob die angeforderte Menge an RDS-Speicher den maximalen Speicherschwellenwert überschreitet. Falls bestätigt, versucht AMS, den maximalen Speicherschwellenwert mit einem CloudFormation Changeset oder einer direkten RDS-API, falls Ressourcen nicht bereitgestellt werden, um 30% zu erhöhen. CloudFormation

Diese Funktion kann deaktiviert werden, indem der RDS-DB-Instance das folgende Tag hinzugefügt wird: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-Speicherkapazität

Im zugewiesenen Speicher für die DB-Instance verbleiben weniger als 1 GB.

Der Speicherplatz ist zu 99% zugewiesen.

Die automatische AMS-Problembehebung überprüft zunächst, ob sich die Datenbank in einem modifizierbaren und verfügbaren Zustand befindet oder ob der Speicherplatz voll ist. Anschließend wird versucht, den zugewiesenen Speicher, die IOPS und den Speicherdurchsatz mithilfe eines Changesets zu erhöhen. CloudFormation Wenn eine Stack-Drift bereits erkannt wird, wird sie auf die RDS-API zurückgegriffen, um Ausfallzeiten zu vermeiden.

Diese Funktion kann deaktiviert werden, indem der RDS-DB-Instance das folgende Tag hinzugefügt wird: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

AMSFSXONTAPVolumeCapacityUtilization

Das Amazon FSx for NetApp ONTAP-Volume hat mehr als den standardmäßig zugewiesenen Speicherplatz verbraucht (80%).

FSx für ONTAP liegt die Volumenkapazitätsauslastung zwei Stunden lang über 80% (Standardwert).

Die automatische AMS-Wiederherstellung überprüft zunächst, ob sich der Status des Volume-Lebenszyklus in einem veränderbaren Zustand befindet. Anschließend wird die Volume-Größe um 10% erweitert und gleichzeitig die maximale Kapazität des Dateisystems abgeglichen. Wenn das Dateisystem nicht genügend Speicherkapazität für die Volume-Erweiterung hat, werden sowohl das Volume als auch das Dateisystem zusammen erweitert. Diese Erweiterung ist auf maximal dreimal innerhalb eines Zeitraums von sieben Tagen begrenzt. Das maximale Speicherlimit, auf das AMS Automation erweitert wird, beträgt 5120 GiB.

Anmerkung

Wenn die iSCSI-LUN über dem Volume konfiguriert ist, erweitern Sie die iSCSI-LUN auf Betriebssystemebene. Weitere Informationen finden Sie unter Warum befindet sich meine FSx for ONTAP LUN im schreibgeschützten Modus?

Amazon EC2 Broken Secure Channel: Hinweis zur Automatisierung der Problembehebung

Bevor die automatische Behebung von Problemen mit Amazon EC2 Windows Broken Secure Channel (AMS) durch AWS Managed Services (AMS) durchgeführt wird, führt die Automatisierung die folgenden Vorabprüfungen durch und erstellt einen Vorfallbericht zur weiteren Untersuchung:

  • Überprüft, ob der SSM-Status der Amazon EC2 EC2-Instance „Online“ lautet.

  • Überprüft, ob die Amazon EC2 EC2-Instance Teil einer Auto Scaling Scaling-Gruppe ist und ob alle Instances in der Auto Scaling Scaling-Gruppe denselben Hostnamen haben.

  • Prüft, ob die Amazon EC2 EC2-Instance Teil des CloudFormation Stacks ist, der für ihre Bereitstellung verwendet wurde. Wenn die Instance aus dem CloudFormation Stack entfernt wurde, überprüft die Automatisierung, ob die zugehörige Active Directory-Organisationseinheit (OU) immer noch auf den Stack verweist.

Nachdem die oben genannten Validierungen bestanden wurden, fährt die Automatisierung mit der Behebung des defekten sicheren Kanals fort.

Schritte zur Problembehebung:

  • Bei der automatischen Problembehebung wird versucht, den sicheren Kanal zwischen der EC2-Instance und der AD-Domain zu reparieren und den Zugriff auf die Instance wiederherzustellen.

  • Nach der Behebung überprüft die Automatisierung, ob der sichere Kanal eingerichtet ist. Gelingt das nicht, erstellt AMS einen Vorfall und beauftragt den AMS-Betrieb mit der Untersuchung.

Fehler bei der EC2-Statusprüfung: Hinweise zur Automatisierung der Problembehebung

So funktioniert die automatische AMS-Problembehebung bei fehlgeschlagenen EC2-Statuschecks:

  • Wenn Ihre Amazon EC2 EC2-Instance nicht mehr erreichbar ist, muss die Instance gestoppt und erneut gestartet werden, damit sie auf neue Hardware migriert und wiederhergestellt werden kann.

  • Wenn die Ursache des Problems im Betriebssystem liegt (fehlende Geräte in FSTAB, Kernelbeschädigung usw.), kann die Automatisierung Ihre Instance nicht wiederherstellen.

  • Wenn Ihre Instance zu einer Auto Scaling Scaling-Gruppe gehört, ergreift die Automatisierung keine Aktion — die AutoScalingGroup Skalierungsaktion ersetzt die Instance.

  • Wenn für Ihre Instance EC2 Auto Recovery aktiviert ist, werden bei der Behebung keine Maßnahmen ergriffen.

Automatisierung der Behebung der EC2-Volumennutzung

So funktioniert die automatische Behebung von Problemen mit der EC2-Volumennutzung durch AWS Managed Services (AMS):

  • Die Automatisierung überprüft zunächst, ob die Volumenerweiterung erforderlich ist und ob sie durchgeführt werden kann. Wenn die Erweiterung als angemessen erachtet wird, kann die Automatisierung die Volumenkapazität erhöhen. Dieser automatisierte Prozess bringt den Bedarf an Wachstum mit kontrollierter, begrenzter Expansion in Einklang.

  • Vor der Erweiterung eines Volumes führt die Automatisierung Säuberungsaufgaben (Windows: Disk Cleaner, Linux: Logrotate + Simple Service Manager Agent Log entfernen) auf der Instanz aus, um Speicherplatz freizugeben.

    Anmerkung

    Die Bereinigungsaufgaben werden nicht auf Instances der EC2-Familie „T“ ausgeführt, da sie für die kontinuierliche Funktionalität auf CPU-Guthaben angewiesen sind.

  • Unter Linux unterstützt die Automatisierung nur die Erweiterung der Dateisysteme vom Typ EXT2 EXT3, EXT4 und XFS.

  • Unter Windows unterstützt die Automatisierung nur das New Technology File System (NTFS) und das Resilient File System (ReFS).

  • Die Automatisierung erweitert keine Volumes, die Teil von Logical Volume Manager (LVM) oder eines RAID-Arrays sind.

  • Durch die Automatisierung werden die Instance-Speicher-Volumes nicht erweitert.

  • Die Automatisierung ergreift keine Maßnahmen, wenn das betroffene Volumen bereits größer als 2 TiB ist.

  • Die Erweiterung durch Automatisierung ist auf maximal dreimal pro Woche und insgesamt auf das Fünffache während der gesamten Lebensdauer des Systems begrenzt.

  • Durch die Automatisierung wird das Volumen nicht erhöht, wenn die vorherige Erweiterung innerhalb der letzten sechs Stunden stattgefunden hat.

Wenn diese Regeln verhindern, dass die Automatisierung Maßnahmen ergreift, kontaktiert AMS Sie über eine ausgehende Serviceanfrage, um die nächsten zu ergreifenden Maßnahmen festzulegen.

Automatisierung der Behebung von Ereignissen bei geringem Speicherplatz in Amazon RDS

So funktioniert die automatische Behebung von AWS Managed Services (AMS) bei Problemen mit unzureichendem Speicherplatz in Amazon RDS:

  • Bevor versucht wird, den Amazon RDS-Instance-Speicher zu erweitern, führt die Automatisierung mehrere Prüfungen durch, um sicherzustellen, dass sich die Amazon RDS-Instance in einem modifizierbaren und verfügbaren oder speichervollen Zustand befindet.

  • Wenn CloudFormation Stack-Drift erkannt wird, erfolgt die Behebung über die Amazon RDS-API.

  • Je nach auslösendem Ereignis werden bei der Behebung die EigenschaftenMaxAllocatedStorage,, AllocatedStorage oder geändert. Iops StorageThroughput Andere Amazon RDS-Instance-Eigenschaften werden nicht geändert. Weitere Informationen finden Sie unter Einstellungen für DB-Instances.

  • Die Behebungsaktion wird in den folgenden Szenarien nicht ausgeführt:

    • Der Amazon RDS-Instance-Status ist nicht „verfügbar“ oder „Speicher voll“.

    • Der Amazon RDS-Instance-Speicher kann derzeit nicht geändert werden (z. B. wenn der Speicher in den letzten sechs Stunden geändert wurde).

    • Für die Amazon RDS-Instance ist die automatische Speicherskalierung aktiviert.

  • Die Problembehebung ist auf eine Erweiterung alle sechs Stunden und nicht mehr als drei Erweiterungen innerhalb eines fortlaufenden Zeitraums von vierzehn Tagen begrenzt.

  • Wenn diese Szenarien eintreten, meldet sich AMS mit einem ausgehenden Vorfall an Sie, um die nächsten Maßnahmen festzulegen.

Automatisierung der Wiederherstellung der Volumenkapazität mit ONTAP

So funktioniert die automatische Behebung von Problemen mit der ONTAP-Volumenkapazität von AWS Managed Services (AMS):

  • Vor der Erweiterung des Volumes überprüft die Automatisierung, ob sich der Lebenszyklusstatus des Volumes in einem modifizierbaren Zustand befindet.

  • Durch die Automatisierung wird die Volumegröße um 10% erweitert und gleichzeitig die maximale Kapazität des Dateisystems abgeglichen.

  • Wenn das Dateisystem nicht über genügend Speicherkapazität für die Volume-Erweiterung verfügt, werden sowohl die Volume- als auch die Dateisystemkapazität erweitert.

  • Die Problembehebung ist auf nicht mehr als drei Updates innerhalb eines Zeitraums von sieben Tagen beschränkt.

  • Das maximale Speicherlimit, auf das AMS Automation erweitert wird, beträgt 5120 GiB.

  • Wenn die iSCSI-LUN über dem Volume konfiguriert ist, müssen Sie die iSCSI-LUN nach Abschluss der automatischen Wiederherstellung manuell auf Betriebssystemebene erweitern. Weitere Informationen finden Sie unter Warum ist meine FSx für ONTAP LUN im schreibgeschützten Modus?