

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Alertes dans Amazon EKS
<a name="alerting"></a>

Les alertes sont un élément essentiel de la gestion et de la maintenance des applications qui s'exécutent sur Amazon EKS. Il s'agit d'un système d'alerte précoce qui avertit les opérateurs et les développeurs des problèmes potentiels, des anomalies ou des dégradations de performances avant qu'ils ne dégénèrent en problèmes graves susceptibles d'avoir un impact sur la disponibilité du service ou l'expérience utilisateur. Les alertes impliquent la surveillance de différents aspects du cluster Kubernetes, notamment :
+ Santé des infrastructures
+ Performances des applications
+ Métriques de conteneur
+ Indicateurs commerciaux personnalisés

L'efficacité des alertes dans Amazon EKS ne se limite pas à la simple configuration des notifications. Cela nécessite une well-thought-out stratégie qui équilibre le besoin d'informations en temps opportun et le risque de fatigue liée aux alertes. Cette stratégie doit :
+ Définissez des seuils et des conditions significatifs.
+ Priorisez les alertes en fonction de leur gravité et de leur impact.
+ Mettez en œuvre des procédures de routage et d'escalade appropriées.
+ Intégrez les outils de gestion des incidents et de communication.

**Topics**
+ [Outils](alerting-tools.md)
+ [Bonnes pratiques](alerting-best-practices.md)

# Outils d'alerte pour Amazon EKS
<a name="alerting-tools"></a>

Amazon EKS prend en charge plusieurs options AWS et des options tierces pour la mise en œuvre des alertes. Lorsque vous choisissez un outil d'alerte Amazon EKS, tenez compte de facteurs tels que les capacités d'intégration, l'évolutivité, la facilité d'utilisation, le coût et les fonctionnalités spécifiques qui répondent à vos exigences en matière de surveillance et d'alerte. De nombreuses entreprises utilisent une combinaison de ces outils pour créer une solution complète de surveillance et d'alerte pour leurs environnements Amazon EKS.
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) : **Service AWS **pour la surveillance et l'observabilité

  CloudWatch fournit des métriques, des journaux et des alarmes pour les clusters EKS et s'intègre parfaitement aux autres Services AWS.
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html) : outil open source de surveillance et d'alerte pour Kubernetes

  Prometheus fournit un langage de requête puissant (ProMQL) pour définir les conditions d'alerte.
+ [Alertmanager](https://prometheus.io/docs/alerting/latest/alertmanager/) : compagnon de Prometheus pour gérer les alertes

  Alertmanager assure la déduplication, le regroupement et le routage des alertes. Il prend en charge différents canaux de notification, notamment le courrier électronique, Slack et PagerDuty.
+ [Grafana](https://aws.amazon.com/grafana/) : plateforme open source pour la surveillance et l'observabilité

  Grafana fournit des fonctionnalités de visualisation et d'alerte. Il peut s'intégrer à diverses sources de données, notamment Prometheus et. CloudWatch
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/what-is/elk-stack/) : combinaison d'Elasticsearch, Logstash et Kibana

  Cet outil est utile pour l'agrégation des journaux, l'analyse et les alertes. Il peut être étendu grâce aux fonctionnalités d'observabilité d'Elastic.
+ Solutions tierces

  De nombreux outils sont disponibles sur le marché, notamment Datadog, New Relic, Sysdig, Dynatrace, Zabbix, Nagios, Splunk, IBM Instana et. AppDynamics

# Bonnes pratiques en matière d'alertes dans Amazon EKS
<a name="alerting-best-practices"></a>

Cette section décrit les meilleures pratiques pour créer un système d'alerte robuste qui améliore la fiabilité et les performances de vos applications basées sur Kubernetes dans Amazon EKS.

Définissez des seuils d'alerte clairs :
+ Définissez des seuils significatifs en fonction des données historiques et des exigences commerciales.
+ Utilisez des seuils dynamiques, le cas échéant, pour tenir compte des différentes charges de travail.

Mettre en œuvre la priorisation des alertes :
+ Classez les alertes par gravité (par exemple, critique, élevée, moyenne, faible).
+ Alignez les priorités des alertes avec l'impact commercial.

Évitez la fatigue liée aux alertes :
+ Réduisez le bruit en éliminant les alertes redondantes ou de faible valeur.
+ Corrélez les alertes aux problèmes liés au groupe.

Utilisez des alertes en plusieurs étapes :
+ Mettez en œuvre des seuils d'alerte avant que les niveaux critiques ne soient atteints.
+ Utilisez différents canaux de notification en fonction de la sévérité des alertes.

Mettez en œuvre un routage d'alerte approprié :
+ Assurez-vous que les alertes sont envoyées aux bonnes équipes ou aux bonnes personnes.
+ Utilisez des horaires d'astreinte et des rotations pour une couverture quotidienne et quotidienne.

Tirez parti des métriques natives de Kubernetes :
+ Surveillez les principaux composants de Kubernetes (nœuds, pods, services).
+ Utilisez [kube-state-metrics (KSM)](https://github.com/kubernetes/kube-state-metrics) pour des métriques d'objets Kubernetes supplémentaires.

Surveillez à la fois l'infrastructure et les applications :
+ Configurez des alertes relatives à l'état du cluster, à l'état des nœuds et à l'utilisation des ressources.
+ Implémentez des alertes spécifiques à l'application, telles que les taux d'erreur et le temps de latence.

Utilisez Prometheus et Alertmanager :
+ Utilisez Prometheus pour la collecte des métriques et ProMQL pour définir les conditions d'alerte.
+ Utilisez Alertmanager pour le routage et la déduplication des alertes.

Intégrez Amazon CloudWatch :
+ Utilisez [CloudWatchContainer Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) pour les métriques spécifiques à Amazon EKS.
+ Configurez [CloudWatchdes alarmes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) pour les indicateurs AWS de ressources critiques.

Implémentez des alertes contextuelles :
+ Incluez des informations pertinentes dans les messages d'alerte, telles que le nom du cluster, l'espace de noms et les détails du pod.
+ Fournissez des liens vers des tableaux de bord ou des runbooks pertinents dans les alertes.

Utiliser la détection des anomalies :
+ Mettez en œuvre la détection des anomalies basée sur le machine learning pour les modèles complexes.
+ Utilisez des services tels que la détection des CloudWatch anomalies ou des outils tiers.

Mettez en œuvre la suppression et le silence des alertes :
+ Autoriser la suppression temporaire des problèmes connus.
+ Mettez en place des fenêtres de maintenance pour réduire le bruit pendant les temps d'arrêt planifiés.

Surveillez les performances des alertes :
+ Suivez des indicateurs tels que la fréquence des alertes, le temps de résolution et les taux de faux positifs.
+ Passez régulièrement en revue et affinez les règles d'alerte en fonction de ces indicateurs.

Mettez en œuvre des procédures d'escalade :
+ Définissez des voies d'escalade claires pour les alertes non résolues.
+ Utilisez des outils tels PagerDuty que Opsgenie pour les escalades automatisées.

Testez régulièrement les systèmes d'alerte :
+ Effectuez des tests périodiques de votre pipeline d'alertes.
+ Incluez des tests d'alerte dans les exercices de reprise après sinistre.

Utilisez des modèles pour garantir la cohérence des alertes :
+ Créez des modèles d'alerte standardisés pour les scénarios courants.
+ Garantissez un formatage et des informations cohérents pour toutes les alertes.

Mettre en œuvre la limitation du débit :
+ Prévenez les tempêtes d'alerte en limitant le débit des alertes fréquemment déclenchées.

Utilisez des métriques personnalisées :
+ Implémentez des métriques personnalisées pour une surveillance spécifique à l'application.
+ Utilisez l'API de métriques personnalisées de Kubernetes pour un dimensionnement automatique basé sur ces métriques.

Implémenter l'intégration des logs :
+ Corrélez les alertes avec les journaux pertinents pour accélérer le dépannage.
+ Utilisez des outils tels que Grafana Loki ou ELK Stack en conjonction avec votre système d'alerte.

Pensez aux alertes de coûts :
+ Configurez des alertes en cas de pics inattendus d'utilisation des ressources ou de coûts.
+ Utilisez [AWS Budgets](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)ou utilisez des outils de gestion des coûts tiers.

Utiliser le suivi distribué :
+ Intégrez des outils de suivi distribués tels que Jaeger ou [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html).
+ Configurez des alertes en cas de modèles de traçage ou de latences anormaux.

Livres d'alerte documentaire :
+ Créez des runbooks clairs et exploitables pour chaque type d'alerte.
+ Incluez des étapes de dépannage et des procédures d'escalade dans les runbooks.

En suivant ces bonnes pratiques, vous pouvez créer un système d'alerte robuste et efficace pour votre environnement Amazon EKS. Cela permettra de garantir une haute disponibilité, une résolution rapide des problèmes et des performances optimales de vos applications basées sur Kubernetes.