Comment fonctionnent la surveillance et la gestion des incidents pour Amazon EKS dans AMS Accelerate

Génération : dans le cadre de la surveillance de l'intégration et de la gestion des incidents pour EKS, AMS configure la surveillance de base pour les clusters Amazon EKS que vous avez sélectionnés dans votre compte géré. AMS utilise une combinaison des règles du gestionnaire d'alertes Amazon Managed Service for Prometheus et des règles relatives aux événements CloudWatch Amazon pour configurer la surveillance de base. Un serveur Prometheus configuré par AMS dans votre cluster récupère et écrit à distance vos métriques Prometheus sur un point de terminaison Amazon Managed Service for Prometheus situé dans la même région. La configuration de surveillance de base génère une alerte lorsqu'une règle du gestionnaire d'alertes Prometheus est déclenchée ou qu' CloudWatch un événement est généré.

Agrégation : AMS envoie toutes les alertes générées par vos ressources au système de surveillance AMS en les dirigeant vers une rubrique Amazon Simple Notification Service gérée par AMS.

Traitement et analyse d'impact : AMS analyse les alertes puis les traite en fonction de leur impact potentiel. AMS classe les alertes comme suit :

Alertes ayant un impact connu sur le client : pour ces alertes, AMS crée un nouveau rapport d'incident en utilisant le processus de gestion des incidents.
Alertes dont l'impact sur le client est incertain : pour ces alertes, AMS envoie un rapport d'incident. Dans de nombreux cas, ces alertes vous demandent de vérifier l'impact avant qu'AMS ne puisse agir. Pour de telles alertes, AMS envoie une notification d'alerte avec les détails et vérifie si l'alerte nécessite une action d'atténuation. AMS fournit des options pour atténuer les actions dans la notification. Si votre réponse confirme que l'alerte est un incident, AMS déclenche alors la création d'un nouveau rapport d'incident et lance le processus de gestion des incidents. Toute notification de service qui reçoit une réponse indiquant « aucune incidence sur le client » ou aucune réponse pendant trois jours est considérée comme résolue. De plus, l'alerte correspondante est marquée comme résolue.
Alertes sans impact sur le client : si, après évaluation, AMS détermine que l'alerte n'a aucun impact sur le client, l'alerte est fermée.

Matrice de responsabilité AMS (RACI)

La matrice AMS responsable, responsable, consultée et informée, ou matrice RACI, attribue la responsabilité principale au client ou à AMS pour diverses activités. Le tableau suivant fournit un aperçu des responsabilités du client et d'AMS en ce qui concerne les activités d'une application qui utilise la surveillance et la gestion des incidents pour Amazon EKS.

R représente la partie responsable qui fait le travail pour accomplir la tâche.
A représente la partie responsable.
C signifie consulté, c'est-à-dire la partie dont l'opinion est sollicitée, généralement en tant qu'expert en la matière, et avec laquelle il existe une communication bilatérale.
I signifie informé, c'est-à-dire la partie qui est informée des progrès, souvent uniquement une fois la tâche ou le résultat livrable terminé.

Activité	Client	AMS
Exigences relatives à Discovery for AMS	I	R
Activer les autorisations AMS (RBAC) pour l'accès au cluster	R	C
Installez l'agent Amazon EC2 Systems Manager sur les nœuds de travail s'il n'est pas déjà présent	R	C
Déployez des composants AMS sur le cluster, tels que Prometheus, Prometheus Node kube-state-metrics Exporter, et dans un espace de noms AMS, selon les besoins.	C	R
Fournir Amazon Managed Service pour Prometheus dans le plan de contrôle AMS	I	R
Configurer le gestionnaire d'alertes Prometheus dans le plan de contrôle AMS	I	R
Fournissez le modèle Amazon Managed Grafana et aidez à la configuration	C	R
Activer la surveillance du journal d'audit GuardDuty EKS	C	R
Activer la journalisation du plan de contrôle Amazon EKS	I	R
Surveillez l'état et les performances du plan de contrôle Amazon EKS	I	R
Surveillez l'état et les performances de votre cluster Amazon EKS (cluster, nœud, charge de travail, module, serveur d'API et CoreDNS)	I	R
Triez les alertes et répondez aux incidents pour Amazon EKS	I	R
Exécuter des commandes de diagnostic lors d'incidents	I	R
Analyser les journaux lors d'incidents (journaux du plan de contrôle et du pod)	I	R
Réponse aux incidents en cas de problèmes AWS de réseau	I	R
Répondre aux résultats de surveillance du journal d'audit GuardDuty EKS	I	R
Fournir des conseils aux clients sur les mesures à prendre pour remédier aux incidents lorsque cela est possible	I	R

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Qu'est-ce que la surveillance et la gestion des incidents pour Amazon EKS ?

Alertes de base