Alertes issues de la surveillance de base dans AMS

Découvrez les paramètres de surveillance par défaut d'AMS. Pour de plus amples informations, veuillez consulter Surveillance et gestion des événements dans AMS.

Le tableau suivant indique ce qui est surveillé, ainsi que les seuils d'alerte par défaut. Vous pouvez modifier les seuils d'alerte à l'aide d'une RFC Management | Other | Other | Update (ct-0xdawir96cy7k) après avoir déterminé les modifications souhaitées et vous être abonné à la rubrique Amazon SNS correspondante. CloudWatch Pour plus d'informations sur la création et l'abonnement à des sujets, voir S'abonner à un sujet. Pour obtenir des informations générales, consultez les FAQ Amazon SNS. Pour être averti directement lorsque les alarmes dépassent leur seuil, en plus du processus d'alerte standard d'AMS, suivez ces instructions sur la façon de remplacer les configurations d'alarme. Réception d'alertes générées par AMS

Amazon CloudWatch assure une rétention prolongée des métriques. Pour plus d’informations, consultez Limites CloudWatch .

Note

AMS étalonne périodiquement sa surveillance de base. Les nouveaux comptes sont toujours intégrés avec le suivi de référence le plus récent et le tableau décrit le suivi de référence pour un compte nouvellement intégré. AMS met régulièrement à jour la surveillance de base des comptes existants et il se peut que vous subissiez un certain décalage avant que les mises à jour ne soient mises en place. Pour de plus amples informations, veuillez consulter Affichage de la configuration de surveillance pour un compte AMS.

Note

L'alerte d'instance EC2 Non-root volume usage est DÉSACTIVÉE par défaut. Si vous avez besoin de générer une alerte basée sur cette alarme, vous devez l'activer à l'aide du type de modification RFC ct-0erkoad6uyvvg

Alertes issues de la surveillance de base
Service	Alerte de sécurité	Nom de l'alerte et condition de déclenchement	Remarques
Pour les alertes marquées d'un astérisque (*), AMS évalue l'impact de manière proactive et y remédie lorsque cela est possible ; si la correction n'est pas possible, AMS crée un incident. Lorsque l'automatisation ne permet pas de résoudre le problème, AMS vous informe du cas d'incident et un ingénieur AMS est engagé. De plus, ces alertes peuvent être envoyées directement à votre adresse e-mail (si vous avez souscrit à la rubrique Direct-Customer-Alerts SNS).
Instance Amazon EC2 — Windows	Non	SecureChannelFailure > 0,0 pour 10 des 15 derniers points de données.	CloudWatch alarme sur les instances Windows pour avertir en cas d'échec de la connexion Secure a Channel.
Instance Aurora	Non	CPUUtilization > 85 % pendant 5 minutes, 2 fois de suite.	CloudWatch alarme.
AWS Backup	Oui	DeleteRecoveryPoint Un principal de rôle IAM ou un utilisateur principal IAM inattendu a supprimé un point de AWS Backup récupération.	CloudWatch événement. Émis lorsqu'un point de restauration de sauvegarde est supprimé.
AWS Outposts	Oui	AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability = 80 % pendant 5 minutes, 12 fois consécutives.	CloudWatch alarme sur la capacité de la famille d'instances, la disponibilité de la AWS Outposts ressource.
		AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability = 80 % pendant 5 minutes, 12 fois consécutives.	CloudWatch alarme sur le type d'instance, la disponibilité de la capacité de la AWS Outposts ressource.
		AMSOutpostsConnectedStatusConnectedStatus < 1 pendant 5 minutes, 1 fois de suite.	CloudWatch alarme lors AWS Outposts de la connexion au lien de service, moins d'un compte est altéré.
		AMSOutpostsCapacityExceptionCapacityExceptions 0 pendant 5 minutes, 1 fois de suite.	CloudWatch alarme en cas d'erreur de capacité insuffisante (par exemple, lancement d'une ressource AWS Outposts) .
Instance EC2 : tous les systèmes d'exploitation	Non	Utilisation du processeur * >= 95 % pendant 5 minutes, 6 fois de suite, si l'instance ne répond pas à une commande d'interrogation de Systems Manager.	CloudWatch alarme. L'utilisation élevée du processeur est un indicateur d'un changement d'état de l'application, tel qu'un blocage, des boucles infinies, des attaques malveillantes et d'autres anomalies.
		StatusCheckFailed > 0 pendant 5 minutes, 3 fois de suite.	CloudWatch alarme.
		Utilisation du volume racine >= 95 % pendant 5 minutes, 6 fois de suite.
		Non-root Utilisation du volume > 85 % pendant 5 minutes, 2 fois de suite. Désactivé par défaut ; pour plus d'informations, consultez https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info.
		Sans mémoire* MemoryFree < 5 % pendant 5 minutes, 6 fois de suite.
	Oui	Logiciel malveillant EPS Un logiciel malveillant a été détecté sur l'instance.	CloudWatch événement.
Instance Amazon EC2 - Linux	Non	Utilisation de l'inode du volume racine Moyenne >= 95 % pendant 5 minutes, 6 fois de suite.	CloudWatch alarme. Appliqué aux instances Linux uniquement.
Instance Amazon EC2 - Linux	Non	Swap gratuit* Échange de mémoire < 5 % pendant 5 minutes, 6 fois de suite.	CloudWatch alarme. Appliqué aux instances Linux uniquement.
ElastiCache Cluster	Non	CurrConnections = 65000	Cette alarme indique à AMS la limite de connexion maximale d'un ElastiCache hôte. CloudWatch Alarme. Si vous souhaitez mettre à jour ce seuil, contactez le support AMS.
ElastiCache Nœud	Non	CPUUtilization Moyenne > valeur prédéfinie pendant 15 minutes, 2 fois consécutives.	CloudWatch alarme. La valeur par défaut est 90. Si vous utilisez Redis, utilisez l'une des valeurs suivantes en fonction du type d'instance : cache.t1.micro : 90 % cache.m1.small : 90 % cache.m1.medium : 90 % cache.m1.large : 45 % cache.m1.xlarge : 22,5 % cache.m2.xlarge : 45 % cache.m2.4xlarge : 11,25 % cache.c1.xlarge : 11,25 % cache.t2.micro : 90 % cache.t2.small : 90 % cache.t2.medium : 45 % cache.m3.medium : 90 % cache.m3.large : 45 % cache.m3.xlarge : 22,5 % cache.m3.2xlarge : 11,25 % cache.r3.large : 45 % cache.r3.xlarge : 22,5 % cache.r3.2xlarge : 11,25 % cache.r3.4xlarge : 5,625 % cache.r3.8xlarge : 2,8125 %
ElastiCache Nœud - memcached	Non	SwapUsage maximum > 50 000 000 octets pendant 5 minutes, 5 fois de suite.	CloudWatch alarme. Appliqué à Memcached uniquement.
OpenSearch cluster	Non	ClusterStatus.red le maximum est >= 1 pendant 1 minute, 1 fois consécutive. AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	CloudWatch alarme. Au moins une partition principale et ses réplicas ne sont pas alloués à un nœud. Pour en savoir plus, consultez la section État du cluster rouge.
OpenSearch domaine	Non	KMSKeyError >= 1 pendant 1 minute, 1 fois consécutive.	CloudWatch alarme. La clé de chiffrement KMS utilisée pour chiffrer les données au repos dans votre domaine est désactivée. Re-enable il permet de rétablir le fonctionnement normal. Pour en savoir plus, consultez la section Chiffrement des données au repos pour le OpenSearch service Service.
		ClusterStatus.yellow le maximum est >= 1 pendant 1 minute, 1 fois consécutive AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	Au moins une partition de réplica n'est pas allouée à un nœud. Pour en savoir plus, consultez la section État du cluster jaune.
		FreeStorageSpace le minimum est <= 20480 pendant 1 minute, 1 fois consécutive AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	Un nœud de votre cluster est descendu à 20 Gio d'espace de stockage disponible. Pour en savoir plus, consultez la section Manque d'espace de stockage disponible.
		ClusterIndexWritesBlocked >= 1 pendant 5 minutes, 1 fois consécutive AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	Le cluster bloque les demandes d'écriture. Pour en savoir plus, consultez ClusterBlockException.
		Nœuds le minimum est < x pendant 1 jour, 1 fois consécutive AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	x est le nombre de nœuds de votre cluster. Cette alarme indique qu'au moins un nœud de votre cluster a été inaccessible pendant 1 jour. Pour en savoir plus, consultez la section Nœuds de cluster défaillants.
		CPUUtilization la moyenne est supérieure ou égale à 80 % pendant 15 minutes, 3 fois de suite AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	L'utilisation du processeur à 100 % est courante, mais le maintien de moyennes élevées pose problème. Envisagez d'utiliser des types d'instances plus grands ou d'ajouter des instances.
		JVMMemoryPressure le maximum est >= 80 % pendant 5 minutes, 3 fois de suite AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	Le cluster peut rencontrer des erreurs de mémoire insuffisante si l'utilisation augmente. Envisagez une mise à l'échelle verticale. Amazon ES utilise la moitié de la RAM d'une instance pour la pile Java, pour une taille maximale de 32 Gio. Vous pouvez mettre à l'échelle des instances verticalement jusqu'à 64 Gio de RAM, après quoi vous pouvez effectuer une mise à l'échelle horizontale en ajoutant des instances.
		Utilisation du processeur principal la moyenne est supérieure ou égale à 50 % pendant 15 minutes, 3 fois de suite AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	Envisagez d'utiliser des types d'instances plus grands pour vos nœuds maîtres dédiés. En raison de leur rôle dans la stabilité des clusters et blue/green les déploiements, les nœuds maîtres dédiés devraient avoir une utilisation moyenne du processeur inférieure à celle des nœuds de données.
		MasterJVMMemoryPressure le maximum est >= 80 % pendant 15 minutes, 1 fois consécutive AMS prend des mesures proactives pour réduire l'impact opérationnel lorsque cette alerte est déclenchée.	Envisagez d'utiliser des types d'instances plus grands pour vos nœuds maîtres dédiés. En raison de leur rôle dans la stabilité des clusters et blue/green les déploiements, les nœuds maîtres dédiés devraient avoir une utilisation moyenne du processeur inférieure à celle des nœuds de données.
OpenSearch instance	Non	AutomatedSnapshotFailure le maximum est >= 1 pendant 1 minute, 1 fois consécutive.	CloudWatch alarme. Un instantané automatique a échoué. Cette défaillance est souvent le résultat d'un état de santé de cluster rouge. Voir État du cluster rouge.
Instance d'Elastic Load Balancing	Non	SurgeQueueLength > 100 pendant 1 minute, 15 fois de suite.	CloudWatch alarme si un nombre excessif de demandes sont en attente de routage.
		HTTP Code_ELB _5xx_Count somme > 0 pendant 5 min, 3 fois de suite.	CloudWatch alarme en cas de nombre excessif de codes de réponse HTTP 5XX provenant de l'équilibreur de charge.
		SpilloverCount > 1 pendant 1 minute, 15 fois de suite.	CloudWatch alarme si un nombre excessif de demandes ont été rejetées parce que la file d'attente est pleine.
GuardDuty service	Oui	Non applicable ; toutes les constatations (à des fins de menace) sont surveillées. Chaque résultat correspond à une alerte. Changements dans les GuardDuty résultats. Ces modifications incluent les nouveaux résultats obtenus et toutes les occurrences ultérieures de ces résultats existants.	La liste des types de GuardDuty recherche pris en charge se trouve sur les types de recherche GuardDuty actifs.
Santé	Varie	Tableau de bord AWS Health	Des notifications sont envoyées en cas de modification du statut des événements Tableau de bord AWS Health (AWS Health) par rapport aux services de base pris en charge par AMS nécessitant une action de la part d'AMS Operations. Pour plus d'informations, consultez la section Services pris en charge.
AWS Managed Microsoft AD	Non	État d'Active Directory AWS Managed Microsoft AD l'instance envoie un événement de statut actif.	Événement de service. Émis lorsque le répertoire fonctionne normalement après un événement.
		État du répertoire altéré AWS Managed Microsoft AD l'instance envoie un événement d'état de répertoire altéré.	Événement de service. Émis lorsque le répertoire s'exécute dans un état dégradé. Un ou plusieurs problèmes ont été détectés. Il se peut que toutes les opérations liées à l'annuaire ne puissent pas être totalement opérationnelles.
		État du répertoire inutilisable AWS Managed Microsoft AD l'instance envoie un événement d'état inopérable.	Événement de service. Émis lorsque le répertoire n'est pas fonctionnel. Tous les points de terminaison de l'annuaire ont signalé des problèmes.
		Suppression du statut du répertoire AWS Managed Microsoft AD l'instance envoie un événement d'état de suppression du répertoire.	Événement de service. Émis lorsque le répertoire est en cours de suppression.
		État du répertoire défaillant AWS Managed Microsoft AD l'instance envoie un événement d'état d'échec.	Événement de service. Émis lorsque le répertoire n'a pas pu être créé.
		RestoreFailed État du répertoire AWS Managed Microsoft AD l'instance envoie un événement d'état du répertoire ayant échoué lors de la restauration.	Événement de service. Émis lors de l'échec de la restauration du répertoire à partir d'un instantané.
Instance Amazon RDS	Non	L'alerte de faible capacité de stockage se déclenche lorsque le stockage alloué à l'instance de base de données est épuisé.	RDS-EVENT-0007, consultez la section Utilisation des notifications d'événements Amazon RDS pour en savoir plus.
		L'instance de base de données échoue L’instance de base de données a échoué en raison d’une configuration incompatible ou d’un problème de stockage sous-jacent. Commencez une restauration à un instant dans le passé pour l’instance de base de données.	Événement de service. RDS-EVENT-0031, catégories d'événements Amazon RDS et messages d'événements.
		Le basculement n'a pas été tenté Amazon RDS ne tente pas le basculement demandé, car un basculement s'est récemment produit sur l'instance de base de données.	Événement de service. RDS-EVENT-0034, catégories d'événements Amazon RDS et messages d'événements.
		Paramètres d'instance de base de données non valides Par exemple, MySQL n'a pas pu démarrer car un paramètre lié à la mémoire est défini trop haut pour cette classe d'instance. L'action du client serait donc de modifier le paramètre de mémoire et de redémarrer l'instance de base de données.	Événement de service. RDS-EVENT-0035, catégories d'événements Amazon RDS et messages d'événements.
		ID de sous-réseau non valides, instance de base de données L’instance de base de données se trouve sur un réseau non compatible. Certains des ID de sous-réseau spécifiés ne sont pas valides ou n’existent pas.	Événement de service. RDS-EVENT-0036, catégories d'événements Amazon RDS et messages d'événements.
		Erreur de lecture de la réplique par l'instance de base Une erreur s’est produite lors du processus de réplication en lecture. Pour plus d’informations, consultez le message de l’événement. Pour plus d'informations sur la résolution des erreurs de lecture de répliques, consultez la section Résolution d'un problème de réplication de lecture MySQL.	Événement de service. RDS-EVENT-0045, catégories d'événements Amazon RDS et messages d'événements.
		Fin de la réplication en lecture de l'instance de base La réplication sur le Read Replica est terminée.	Événement de service. RDS-EVENT-0057, catégories d'événements Amazon RDS et messages d'événements.
		Erreur lors de la création du compte utilisateur statspack Erreur lors de la création du compte d'utilisateur Statspack PERFSTAT. Supprimez le compte avant d'ajouter l'option Statspack.	Événement de service. RDS-EVENT-0058, catégories d'événements Amazon RDS et messages d'événements.
		Début de la restauration de l'instance de base L’instance de base de données SQL Server est en train de rétablir son miroir. Les performances seront dégradées tant que le miroir n’est pas restauré. Il a été trouvé une base de données avec un modèle de récupération autre que FULL. Le modèle de restauration est redevenu FULL et la restauration par mise en miroir a été lancée. (<dbname>: <recovery model found>[,...]).	Événement de service. RDS-EVENT-0066, catégories d'événements Amazon RDS et messages d'événements.
		Un basculement pour le cluster de base de données a échoué.	RDS-EVENT-0069, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		Compartiment S3 de récupération d'autorisations non valides Le rôle IAM que vous utilisez pour accéder à votre compartiment Amazon S3 pour la sauvegarde et la restauration natives SQL Server est mal configuré. Pour plus d'informations, consultez la section Configuration de la sauvegarde et de la restauration natives.	Événement de service. RDS-EVENT-0081, catégories d'événements Amazon RDS et messages d'événements.
		Aurora n’a pas pu copier les données de sauvegarde d’un compartiment Amazon S3.	RDS-EVENT-0082, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		Alerte de faible capacité de stockage lorsque l'instance de base de données a consommé plus de 90 % du stockage alloué	RDS-EVENT-0089, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		Service de notification en cas d'échec du dimensionnement pour le cluster de base de données Aurora Serverless.	RDS-EVENT-0143, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		L'instance de base de données est à un état non valide. Aucune action n'est nécessaire. La scalabilité automatique retentera plus tard.	RDS-EVENT-0219, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		L'instance de base de données a atteint le seuil de stockage complet et la base de données a été arrêtée.	RDS-EVENT-0221, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		Cet événement indique que le dimensionnement automatique du stockage de l'instance RDS ne peut pas être redimensionné. Plusieurs raisons peuvent expliquer l'échec du dimensionnement automatique.	RDS-EVENT-0223, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		La scalabilité automatique du stockage a déclenché une tâche de mise l'échelle du stockage en attente qui atteindrait le seuil de stockage maximal.	RDS-EVENT-0224, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		L'instance de base de données comporte un type de stockage qui est actuellement indisponible dans la zone de disponibilité. La scalabilité automatique retentera plus tard.	RDS-EVENT-0237, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		RDS n’a pas pu allouer la capacité pour le proxy, car il n’y a pas suffisamment d’adresses IP disponibles dans vos sous-réseaux.	RDS-EVENT-0243, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		L'espace de stockage de votre compte AWS a dépassé le quota de stockage autorisé.	RDS-EVENT-0254, consultez les informations détaillées sur Catégories d'événements et messages d'événements Amazon RDS.
		CPUUtilization Utilisation moyenne du processeur > 90 % pendant 15 minutes, 2 fois de suite.	CloudWatch alarme.
		DiskQueueDepth La somme est > 75 pendant 1 minute, 15 fois consécutives.
		FreeStorageSpace Moyenne < 1 073 741 824 octets pendant 5 minutes, 2 fois de suite.
		SwapUsage Moyenne >= 104 857 600 octets pendant 5 minutes, 2 fois consécutives.
Cluster Amazon Redshift	Non	RedshiftClusterStatus L'état de santé du cluster lorsqu'il n'est pas en mode maintenance est inférieur à 1 pendant 5 minutes.	1 représente un cluster sain.
Amazon Macie	Oui	Alertes nouvellement générées et mises à jour des alertes existantes. Macie trouve des changements dans les résultats. Ces modifications incluent les nouveaux résultats obtenus et toutes les occurrences ultérieures de ces résultats existants.	Alerte Amazon Macie. Pour obtenir la liste des types d'alertes Macie pris en charge, consultez la section Analyse des résultats d'Amazon Macie. Notez que Macie n'est pas activé pour tous les comptes.

AMS prend des mesures proactives (dimensionnement du cluster) lorsque cette alerte est déclenchée.

Pour plus d'informations sur les mesures correctives, voirCorrection automatique des alertes par AMS.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

EC2 Profil d'instance IAM

Valeurs par défaut de conservation et de rotation des journaux