Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Mise en œuvre de la haute disponibilité pour les solutions de surveillance Amazon EKS
<a name="monitoring-ha-setup"></a>

Une stratégie de haute disponibilité (HA) robuste pour la surveillance d'Amazon EKS est essentielle pour garantir une visibilité continue de votre environnement Kubernetes. Cette section décrit une approche globale de la mise en œuvre de la haute disponibilité dans différents aspects de votre infrastructure de surveillance.

## Redondance architecturale et évolutivité
<a name="architecture"></a>

La création d'un système de surveillance à haute disponibilité commence par une conception architecturale appropriée. Les composants de surveillance doivent être répartis sur plusieurs zones de AWS disponibilité afin de se protéger contre les défaillances de zone. Cela inclut la mise en œuvre d'une mise à l'échelle horizontale pour les composants de surveillance critiques tels que les serveurs Prometheus, les collecteurs de journaux et les gestionnaires d'alertes. Vous pouvez utiliser des services AWS gérés tels qu'Amazon Managed Service for Prometheus et Amazon Managed Grafana pour réduire les frais d'exploitation tout en garantissant une haute disponibilité. Configurez des mécanismes de basculement automatique pour maintenir la continuité du service en cas de défaillance des composants, en mettant en place des contrôles de santé et des procédures de restauration automatisées.

## Stratégie de stockage de données résiliente
<a name="data-storage"></a>

La résilience du stockage des données est essentielle au maintien de la fiabilité du système de surveillance. La mise en œuvre de solutions de stockage distribué garantit que les données métriques et les journaux restent accessibles même en cas de défaillance de nœuds de stockage individuels. Cela inclut la configuration d'une réplication appropriée des données sur plusieurs zones de disponibilité et l'utilisation de différents backends de stockage à des fins de redondance. Établissez des procédures de sauvegarde régulières pour les données historiques, avec des processus de restauration documentés pour différents scénarios de défaillance. Pour les bases de données chronologiques telles que Prometheus, la mise en œuvre de solutions de stockage à distance permet de séparer les problèmes de stockage de la collecte de données et d'améliorer la fiabilité globale du système.

## Gestion des alertes redondantes
<a name="alert-mgmt"></a>

La gestion des alertes nécessite une attention particulière dans une configuration HA. Le déploiement de gestionnaires d'alertes redondants garantit que les notifications critiques parviennent aux destinataires prévus, même en cas de défaillance du système. Configurez plusieurs canaux de notification tels que les e-mails, les SMS, Slack, et PagerDuty pour fournir d'autres voies de communication. Utilisez des mécanismes de déduplication des alertes pour éviter les tempêtes d'alertes en cas de défaillance partielle du système, ainsi que des méthodes de notification de secours pour garantir que les alertes critiques ne soient jamais manquées. La mise en œuvre de la corrélation des alertes permet de maintenir le contexte lors des scénarios de basculement et d'éviter les notifications dupliquées provenant de systèmes redondants.

## Équilibrage de charge et découverte de services
<a name="load-balancing"></a>

Un bon équilibrage de charge est essentiel pour maintenir des services de surveillance stables. AWS Les équilibreurs de charge des applications répartissent le trafic de surveillance entrant sur plusieurs terminaux, et les contrôles de santé garantissent que le trafic est acheminé uniquement vers des instances saines. Les mécanismes de découverte de services aident les composants de surveillance à s'adapter automatiquement aux modifications de l'environnement, telles que l'ajout de nouveaux nœuds ou services. Déployez des agents de surveillance de manière cohérente sur tous les nœuds en les utilisant DaemonSets pour garantir une couverture complète à mesure que le cluster évolue.

## Autres considérations relatives à la haute disponibilité
<a name="ha-considerations"></a>

Résilience du réseau :
+ Implémentez des chemins réseau redondants.
+ Configurez une conception de sous-réseau appropriée dans les zones de disponibilité.
+ À utiliser [AWS Direct Connect](https://docs.aws.amazon.com/whitepapers/latest/aws-vpc-connectivity-options/aws-direct-connect.html)avec des itinéraires de sauvegarde.
+ Configurez les groupes de sécurité et les listes de contrôle d'accès réseau appropriés (réseau ACLs).

Surveillance des moniteurs :
+ Déployez des systèmes de surveillance secondaires.
+ Mettre en œuvre une surveillance interrégionale.
+ Configurez les alertes pour les systèmes qui ne répondent pas.
+ Testez régulièrement les procédures de basculement.

Planification des capacités :
+ Surveillez les tendances d'utilisation des ressources.
+ Mettez en œuvre un dimensionnement prédictif.
+ Testez régulièrement les performances.

Gestion des données :
+ Mettez en œuvre des politiques de conservation des données.
+ Configurez l'agrégation des métriques.
+ Planifiez la gestion du cycle de vie des données.
+ Optimisez régulièrement le stockage.

Procédures de récupération :
+ Processus de récupération de documents.
+ Testez régulièrement la reprise après sinistre.
+ Mettez en œuvre une restauration automatique dans la mesure du possible.
+ Identifiez et mettez en œuvre des voies d'escalade claires.

En mettant en œuvre ces pratiques de haute disponibilité, vous pouvez vous assurer que votre infrastructure de surveillance Amazon EKS reste fiable et résiliente, et que vous bénéficiez d'une visibilité continue sur vos environnements Kubernetes, même lors de divers scénarios de défaillance. Des tests et des mises à jour réguliers de ces configurations HA garantissent qu'elles restent efficaces au fur et à mesure de l'évolution de l'environnement.