Alertes issues de la surveillance de base dans AMS - Guide de l'utilisateur avancé d'AMS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Alertes issues de la surveillance de base dans AMS

En savoir plus sur les paramètres de surveillance par défaut d'AMS. Pour de plus amples informations, veuillez consulter Surveillance et gestion des événements dans AMS.

Le tableau suivant indique ce qui est surveillé et les seuils d'alerte par défaut. Vous pouvez modifier les seuils d'alerte à l'aide d'une RFC Management | Other | Other | Update (ct-0xdawir96cy7k) après avoir déterminé les modifications souhaitées et vous être abonné à la rubrique Amazon SNS correspondante. CloudWatch Pour plus d'informations sur la création et l'abonnement à des sujets, voir S'abonner à un sujet. Pour obtenir des informations générales, consultez Amazon SNS FAQs. Pour être averti directement lorsque les alarmes dépassent leur seuil, en plus du processus d'alerte standard d'AMS, suivez ces instructions sur la façon de remplacer les configurations d'alarme. Réception d'alertes générées par AMS

Amazon CloudWatch assure une rétention prolongée des métriques. Pour plus d’informations, consultez Limites CloudWatch .

Note

AMS étalonne périodiquement sa surveillance de base. Les nouveaux comptes sont toujours intégrés avec le suivi de référence le plus récent et le tableau décrit le suivi de référence pour un compte nouvellement intégré. AMS met régulièrement à jour la surveillance de base des comptes existants et il se peut que vous subissiez un certain décalage avant que les mises à jour ne soient mises en place. Pour de plus amples informations, veuillez consulter Affichage de la configuration de surveillance pour un compte AMS.

Alertes issues de la surveillance de base

Service

Alerte de sécurité

Nom de l'alerte et condition de déclenchement

Remarques

Pour les alertes marquées d'un astérisque (*), AMS évalue l'impact de manière proactive et y remédie lorsque cela est possible ; si la correction n'est pas possible, AMS crée un incident. Lorsque l'automatisation ne permet pas de résoudre le problème, AMS vous informe du cas d'incident et un ingénieur AMS est engagé. De plus, ces alertes peuvent être envoyées directement à votre adresse e-mail (si vous avez souscrit à la rubrique Direct-Customer-Alerts SNS).

Instance d'Application Load Balancer (ALB)

Non

RejectedConnectionCount

somme > 0 pendant 1 min, 5 fois de suite.

CloudWatch alarme si le nombre de connexions rejetées parce que l'équilibreur de charge a atteint son maximum.

Application Load Balancer (ALB) cible

Non

TargetConnectionErrorCount

somme > 0 pendant 1 min, 5 fois de suite.

CloudWatch alarme si le nombre de connexions a été établi sans succès entre l'équilibreur de charge et les instances enregistrées.

EC2 Instance Amazon — Windows

Non

SecureChannelFailure

> 0,0 pour 10 des 15 derniers points de données.

CloudWatch alarme sur les instances Windows pour avertir en cas d'échec de la connexion Secure a Channel.

Instance Aurora

Non

CPUUtilization

> 85 % pendant 5 minutes, 2 fois de suite.

CloudWatch alarme.

AWS Backup

Oui

DeleteRecoveryPoint

Un principal de rôle IAM ou un utilisateur principal IAM inattendu a supprimé un point de AWS Backup récupération.

CloudWatch événement. Émis lorsqu'un point de restauration de sauvegarde est supprimé.

AWS Outposts

Oui

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 80 % pendant 5 minutes, 12 fois consécutives.

CloudWatch alarme sur la capacité de la famille d'instances, la disponibilité de la AWS Outposts ressource.

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 80 % pendant 5 minutes, 12 fois consécutives.

CloudWatch alarme sur le type d'instance (capacité, disponibilité de la AWS Outposts ressource).

AMSOutpostsConnectedStatusConnectedStatus

< 1 pendant 5 minutes, 1 fois de suite.

CloudWatch alarme lors AWS Outposts de la connexion au lien de service, moins d'un compte est altéré.

AMSOutpostsCapacityExceptionCapacityExceptions

0 pendant 5 minutes, 1 fois de suite.

CloudWatch alarme en cas d'erreur de capacité insuffisante (par exemple, lancement d'une ressource AWS Outposts)

.

EC2 instance - tout OSs

Non

CPUUtilization*

>= 95 % pendant 5 minutes, 6 fois de suite.

CloudWatch alarme. L'utilisation élevée du processeur est un indicateur d'un changement d'état de l'application, tel qu'un blocage, des boucles infinies, des attaques malveillantes et d'autres anomalies.

StatusCheckFailed

> 0 pendant 5 minutes, 3 fois de suite.

CloudWatch alarme.

Utilisation du volume racine

>= 95 % pendant 5 minutes, 6 fois de suite.

Utilisation d'un volume autre que le volume root

> 85 % pendant 5 minutes, 2 fois de suite.

Désactivé par défaut ; pour plus d'informations, consultez https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info.

Sans mémoire*

MemoryFree < 5 % pendant 5 minutes, 6 fois de suite.

Oui

Logiciel malveillant EPS

Un logiciel malveillant a été détecté sur l'instance.

CloudWatch événement.

EC2 Instance Amazon - Linux

Non

Utilisation de l'inode du volume racine

Moyenne >= 95 % pendant 5 minutes, 6 fois de suite.

CloudWatch alarme. Appliqué aux instances Linux uniquement.

Swap gratuit*

Échange de mémoire < 5 % pendant 5 minutes, 6 fois de suite.

ElastiCache Cluster

Non

CurrConnections = 65000

Cette alarme indique à AMS la limite de connexion maximale d'un ElastiCache hôte.

CloudWatch Alarme. Si vous souhaitez mettre à jour ce seuil, contactez le support AMS.

ElastiCache Nœud

Non

CPUUtilization

Moyenne > valeur prédéfinie pendant 15 minutes, 2 fois consécutives.

CloudWatch alarme. La valeur par défaut est 90. Si vous utilisez Redis, utilisez l'une des valeurs suivantes en fonction du type d'instance :

  • cache.t1.micro : 90 %

  • cache.m1.small : 90 %

  • cache.m1.medium : 90 %

  • cache.m1.large : 45 %

  • cache.m1.xlarge : 22,5 %

  • cache.m2.xlarge : 45 %

  • cache.m2.4xlarge : 11,25 %

  • cache.c1.xlarge : 11,25 %

  • cache.t2.micro : 90 %

  • cache.t2.small : 90 %

  • cache.t2.medium : 45 %

  • cache.m3.medium : 90 %

  • cache.m3.large : 45 %

  • cache.m3.xlarge : 22,5 %

  • cache.m3.2xlarge : 11,25 %

  • cache.r3.large : 45 %

  • cache.r3.xlarge : 22,5 %

  • cache.r3.2xlarge : 11,25 %

  • cache.r3.4xlarge : 5,625 %

  • cache.r3.8xlarge : 2,8125 %

ElastiCache Nœud - memcached

Non

SwapUsage

maximum > 50 000 000 octets pendant 5 minutes, 5 fois de suite.

CloudWatch alarme. Appliqué à Memcached uniquement.

OpenSearch grappe

Non

ClusterStatus.rouge

le maximum est >= 1 pendant 1 minute, 1 fois consécutive.

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

CloudWatch alarme. Au moins une partition principale et ses réplicas ne sont pas alloués à un nœud. Pour en savoir plus, consultez la section État du cluster rouge.

OpenSearch domaine

Non

KMSKeyErreur

>= 1 pendant 1 minute, 1 fois de suite.

CloudWatch alarme. La clé de chiffrement KMS qui est utilisée pour chiffrer les données au repos dans votre domaine est désactivée. Réactivez-la pour revenir à un fonctionnement normal. Pour en savoir plus, consultez la section Chiffrement des données au repos pour le OpenSearch service Service.

ClusterStatus.jaune

le maximum est >= 1 pendant 1 minute, 1 fois consécutive

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

Au moins une partition de réplica n'est pas allouée à un nœud. Pour en savoir plus, consultez la section État du cluster jaune.

FreeStorageSpace

le minimum est <= 20480 pendant 1 minute, 1 fois consécutive

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

Un nœud de votre cluster est descendu à 20 Gio d'espace de stockage disponible. Pour en savoir plus, consultez la section Manque d'espace de stockage disponible.

ClusterIndexWritesBlocked

>= 1 pendant 5 minutes, 1 fois consécutive

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

Le cluster bloque les demandes d'écriture. Pour en savoir plus, consultez ClusterBlockException.

Nœuds

le minimum est < x pendant 1 jour, 1 fois consécutive

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

x est le nombre de nœuds de votre cluster. Cette alarme indique qu'au moins un nœud de votre cluster a été inaccessible pendant 1 jour. Pour en savoir plus, consultez la section Nœuds de cluster défaillants.

CPUUtilization

la moyenne est supérieure ou égale à 80 % pendant 15 minutes, 3 fois de suite

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

L'utilisation du processeur à 100 % est courante, mais le maintien de moyennes élevées pose problème. Envisagez d'utiliser des types d'instances plus grands ou d'ajouter des instances.

JVMMemoryPression

le maximum est >= 80 % pendant 5 minutes, 3 fois consécutives

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

Le cluster peut rencontrer des erreurs de mémoire insuffisante si l'utilisation augmente. Envisagez une mise à l'échelle verticale. Amazon ES utilise la moitié de la RAM d'une instance pour la pile Java, pour une taille maximale de 32 Gio. Vous pouvez mettre à l'échelle des instances verticalement jusqu'à 64 Gio de RAM, après quoi vous pouvez effectuer une mise à l'échelle horizontale en ajoutant des instances.

Maître CPUUtilization

la moyenne est supérieure ou égale à 50 % pendant 15 minutes, 3 fois de suite

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

Envisagez d'utiliser des types d'instances plus grands pour vos nœuds maîtres dédiés. En raison de leur rôle dans la stabilité des clusters et blue/green les déploiements, les nœuds maîtres dédiés devraient avoir une utilisation moyenne du processeur inférieure à celle des nœuds de données.

JVMMemoryPression principale

le maximum est >= 80 % pendant 15 minutes, 1 fois consécutive

AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.

Envisagez d'utiliser des types d'instances plus grands pour vos nœuds maîtres dédiés. En raison de leur rôle dans la stabilité des clusters et blue/green les déploiements, les nœuds maîtres dédiés devraient avoir une utilisation moyenne du processeur inférieure à celle des nœuds de données.

OpenSearch instance

Non

AutomatedSnapshotFailure

le maximum est >= 1 pendant 1 minute, 1 fois consécutive.

CloudWatch alarme. Un instantané automatique a échoué. Cette défaillance est souvent le résultat d'un état de santé de cluster rouge. Voir État du cluster rouge.

Instance d'Elastic Load Balancing

Non

SurgeQueueLength

> 100 pendant 1 minute, 15 fois de suite.

CloudWatch alarme si un nombre excessif de demandes sont en attente de routage.

HTTPCode_ELB_5xx_Count

somme > 0 pendant 5 min, 3 fois de suite.

CloudWatch alarme en cas de nombre excessif de codes de réponse HTTP 5XX provenant de l'équilibreur de charge.

SpilloverCount

> 1 pendant 1 minute, 15 fois de suite.

CloudWatch alarme si un nombre excessif de demandes ont été rejetées parce que la file d'attente est pleine.

GuardDuty service

Oui

Non applicable ; toutes les constatations (à des fins de menace) sont surveillées. Chaque résultat correspond à une alerte.

Changements dans les GuardDuty résultats. Ces modifications incluent les nouveaux résultats obtenus et toutes les occurrences ultérieures de ces résultats existants.

La liste des types de GuardDuty recherche pris en charge se trouve sur les types de recherche GuardDuty actifs.

Santé

Varie

AWS Health Dashboard

Des notifications sont envoyées en cas de modification du statut des événements AWS Health Dashboard (AWS Health) par rapport aux services de base pris en charge par AMS. Pour plus d'informations, consultez la section Services pris en charge.

AWS Managed Microsoft AD

Non

État d'Active Directory

AWS Managed Microsoft AD l'instance envoie un événement de statut actif.

Événement de service. Émis lorsque le répertoire fonctionne normalement après un événement.

État du répertoire altéré

AWS Managed Microsoft AD l'instance envoie un événement d'état de répertoire altéré.

Événement de service. Émis lorsque le répertoire s'exécute dans un état dégradé. Un ou plusieurs problèmes ont été détectés. Il se peut que toutes les opérations liées à l'annuaire ne puissent pas être totalement opérationnelles.

État du répertoire inutilisable

AWS Managed Microsoft AD l'instance envoie un événement d'état inopérable.

Événement de service. Émis lorsque le répertoire n'est pas fonctionnel. Tous les points de terminaison de l'annuaire ont signalé des problèmes.

Suppression de l'état du répertoire

AWS Managed Microsoft AD l'instance envoie un événement d'état de suppression du répertoire.

Événement de service. Émis lorsque le répertoire est en cours de suppression.

État du répertoire défaillant

AWS Managed Microsoft AD l'instance envoie un événement d'état d'échec.

Événement de service. Émis lorsque le répertoire n'a pas pu être créé.

RestoreFailed État du répertoire

AWS Managed Microsoft AD l'instance envoie un événement d'état du répertoire ayant échoué lors de la restauration.

Événement de service. Émis lors de l'échec de la restauration du répertoire à partir d'un instantané.

Instance Amazon RDS

Non

L'alerte de faible capacité de stockage se déclenche lorsque le stockage alloué à l'instance de base de données est épuisé.

RDS-EVENT-0007, consultez la section Utilisation des notifications d'événements Amazon RDS.

L'instance de base de données échoue

L'instance de base de données a échoué en raison d'une configuration incompatible ou d'un problème de stockage sous-jacent. Commencez un point-in-time-restore pour l'instance de base de données.

Événement de service. RDS-EVENT-0031, catégories d'événements et messages d'événements Amazon RDS.

Le basculement n'a pas été tenté

Amazon RDS ne tente pas le basculement demandé, car un basculement s'est récemment produit sur l'instance de base de données.

Événement de service. RDS-EVENT-0034, catégories d'événements et messages d'événements Amazon RDS.

Paramètres d'instance de base de données non valides

Par exemple, MySQL n'a pas pu démarrer car un paramètre lié à la mémoire est défini trop haut pour cette classe d'instance. L'action du client serait donc de modifier le paramètre de mémoire et de redémarrer l'instance de base de données.

Événement de service. RDS-EVENT-0035, catégories d'événements et messages d'événements Amazon RDS.

Instance de IDs base de données de sous-réseau non valide

L'instance de base de données se trouve sur un réseau non compatible. Certains sous-réseaux spécifiés ne IDs sont pas valides ou n'existent pas.

Événement de service. RDS-EVENT-0036, catégories d'événements et messages d'événements Amazon RDS.

Erreur de lecture de la réplique par l'instance de base

Une erreur s'est produite lors du processus de réplication en lecture. Pour plus d'informations, consultez le message de l'évènement. Pour plus d'informations sur la résolution des erreurs de lecture de répliques, consultez la section Résolution d'un problème de réplication de lecture MySQL.

Événement de service. RDS-EVENT-0045, catégories d'événements et messages d'événements Amazon RDS.

Fin de la réplication en lecture de l'instance de base

La réplication sur le Read Replica est terminée.

Événement de service. RDS-EVENT-0057, catégories d'événements et messages d'événements Amazon RDS.

Erreur lors de la création du compte utilisateur statspack

Erreur lors de la création du compte d'utilisateur Statspack PERFSTAT. Supprimez le compte avant d'ajouter l'option Statspack.

Événement de service. RDS-EVENT-0058, catégories d'événements et messages d'événements Amazon RDS.

Début de la restauration de l'instance de base

L'instance de base de données SQL Server est en train de rétablir son miroir. Les performances seront dégradées tant que le miroir n'est pas restauré. Il a été trouvé une base de données avec un modèle de récupération autre que FULL. Le modèle de restauration est redevenu FULL et la restauration par mise en miroir a été lancée. (<dbname>: <recovery model found>[,...]).

Événement de service. RDS-EVENT-0066, catégories d'événements et messages d'événements Amazon RDS.

Un basculement pour le cluster de base de données a échoué.

RDS-EVENT-0069, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

Compartiment S3 de récupération d'autorisations non valides

Le rôle IAM que vous utilisez pour accéder à votre compartiment Amazon S3 pour la sauvegarde et la restauration natives SQL Server est mal configuré. Pour plus d'informations, consultez Configuration de la sauvegarde et de la restauration natives.

Événement de service. RDS-EVENT-0081, catégories d'événements et messages d'événements Amazon RDS.

Aurora n'a pas pu copier les données de sauvegarde d'un compartiment Amazon S3.

RDS-EVENT-0082, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

Alerte de faible capacité de stockage lorsque l'instance de base de données a consommé plus de 90 % du stockage alloué

RDS-EVENT-0089, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

Service de notification en cas d'échec du dimensionnement pour le cluster de base de données Aurora Serverless.

RDS-EVENT-0143, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

L'instance de base de données est à un état non valide. Aucune action n'est nécessaire. La scalabilité automatique retentera plus tard.

RDS-EVENT-0219, consultez les informations détaillées sur les catégories d'événements et les messages d'événements Amazon RDS.

L'instance de base de données a atteint le seuil de stockage complet et la base de données a été arrêtée.

RDS-EVENT-0221, consultez les informations détaillées sur les catégories d'événements et les messages d'événements Amazon RDS.

Cet événement indique que le dimensionnement automatique du stockage de l'instance RDS n'est pas en mesure d'être redimensionné. Plusieurs raisons peuvent expliquer l'échec du dimensionnement automatique.

RDS-EVENT-0223, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

La scalabilité automatique du stockage a déclenché une tâche de mise l'échelle du stockage en attente qui atteindrait le seuil de stockage maximal.

RDS-EVENT-0224, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

L'instance de base de données comporte un type de stockage qui est actuellement indisponible dans la zone de disponibilité. La scalabilité automatique retentera plus tard.

RDS-EVENT-0237, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

RDS n'a pas pu allouer la capacité pour le proxy car il n'y a pas suffisamment d'adresses IP disponibles dans vos sous-réseaux.

RDS-EVENT-0243, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

L'espace de stockage de votre compte AWS a dépassé le quota de stockage autorisé.

RDS-EVENT-0254, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.

CPUUtilization

Utilisation moyenne du processeur > 90 % pendant 15 minutes, 2 fois de suite.

CloudWatch alarme.

DiskQueueDepth

La somme est > 75 pendant 1 minute, 15 fois consécutives.

FreeStorageSpace

Moyenne < 1 073 741 824 octets pendant 5 minutes, 2 fois de suite.

SwapUsage

Moyenne >= 104 857 600 octets pendant 5 minutes, 2 fois consécutives.

Cluster Amazon Redshift

Non

RedshiftClusterStatus

L'état du cluster lorsqu'il n'est pas en mode maintenance est inférieur à 1 pendant 5 minutes.

1 représente un cluster sain.

Amazon Macie

Oui

Alertes nouvellement générées et mises à jour des alertes existantes.

Macie trouve des changements dans les résultats. Ces modifications incluent les nouveaux résultats obtenus et toutes les occurrences ultérieures de ces résultats existants.

Alerte Amazon Macie. Pour obtenir la liste des types d'alertes Macie pris en charge, consultez la section Analyse des résultats d'Amazon Macie. Notez que Macie n'est pas activé pour tous les comptes.

AMS prend des mesures proactives (dimensionnement du cluster) lorsque cette alerte est déclenchée.

Pour plus d'informations sur les mesures correctives, voirCorrection automatique des alertes par AMS.