Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Surveillance dans Amazon EKS
<a name="monitoring"></a>

La surveillance dans Amazon EKS fournit une visibilité essentielle sur l'état, les performances et la sécurité de vos charges de travail Kubernetes. Sans surveillance adéquate, vous risquez des interruptions de service, des failles de sécurité et une utilisation inefficace des ressources, ce qui peut avoir un impact sur les opérations commerciales et augmenter les coûts. Une surveillance efficace vous permet d'identifier et de résoudre les problèmes de manière proactive, d'optimiser l'utilisation des ressources et de respecter les exigences de conformité pour l'ensemble de vos applications conteneurisées. En mettant en œuvre des solutions de surveillance complètes, vous pouvez garantir une haute disponibilité, détecter les anomalies à un stade précoce et prendre des décisions basées sur les données pour dimensionner et améliorer votre infrastructure Amazon EKS.

Cette section explore les différents aspects de la surveillance Amazon EKS, notamment les différents types de surveillance, les outils disponibles et les meilleures pratiques pour vous aider à élaborer une stratégie de surveillance robuste pour votre environnement Kubernetes.

**Topics**
+ [Types de surveillance](monitoring-types.md)
+ [Outils](monitoring-tools.md)
+ [Mise en œuvre de la haute disponibilité](monitoring-ha-setup.md)
+ [Bonnes pratiques](monitoring-best-practices.md)
+ [Considérations avancées](monitoring-considerations.md)

# Types de surveillance dans Amazon EKS
<a name="monitoring-types"></a>

Une observabilité efficace dans Amazon EKS implique des activités de surveillance de l'infrastructure, des applications et de la sécurité.

## Surveillance de l’infrastructure
<a name="infrastructure"></a>

La surveillance de l'infrastructure est un élément fondamental de l'observabilité d'Amazon EKS qui fournit des informations approfondies sur l'état et les performances des éléments fondamentaux de votre cluster Kubernetes. Il s'agit essentiellement de suivre les signes vitaux des composants du plan de contrôle et des nœuds de travail, et de s'assurer que la plate-forme sous-jacente reste stable et efficace.
+ La **surveillance du plan de contrôle** est cruciale car elle supervise les composants clés tels que le serveur API, la base de données etcd et le planificateur. En surveillant la latence des serveurs d'API, vous pouvez rapidement identifier les problèmes de performance susceptibles d'affecter les déploiements d'applications ou les opérations de dimensionnement. La surveillance des performances Etcd confirme que la base de données d'état du cluster fonctionne efficacement et prévient les problèmes de cohérence des données qui pourraient avoir un impact sur l'ensemble du cluster.
+ La **surveillance au niveau des nœuds** est également essentielle car elle se concentre sur les ressources de calcul qui exécutent vos charges de travail conteneurisées. Cela inclut le suivi de l'utilisation du processeur, de la consommation de mémoire, des E/S du disque et des performances du réseau sur tous les nœuds de travail. La compréhension de ces indicateurs permet de prévenir l'épuisement des ressources, d'optimiser les décisions de dimensionnement des nœuds et de garantir une planification appropriée des capacités.
+ La **surveillance du réseau** joue un rôle essentiel dans le maintien d'une communication fiable entre les modules, les services et les ressources externes. En surveillant le débit, la latence et les états de connexion du réseau, vous pouvez identifier rapidement les problèmes de connectivité et garantir une communication fluide entre les applications. La surveillance du stockage complète la surveillance du réseau en suivant les performances des volumes, l'utilisation des capacités et I/O les modèles, afin d'éviter les goulots d'étranglement liés aux données.

La surveillance de l'infrastructure sert de système d'alerte précoce en cas de problèmes potentiels, permet une maintenance proactive et garantit une allocation optimale des ressources. Sans une surveillance robuste de l'infrastructure, vous risquez des temps d'arrêt inattendus, une dégradation des performances et une utilisation inefficace des ressources, ce qui peut avoir un impact significatif sur les opérations et les coûts de l'entreprise.

## Surveillance des applications
<a name="application"></a>

La surveillance des applications est essentielle pour maintenir des applications conteneurisées saines, performantes et fiables dans votre environnement Amazon EKS. Ce niveau de surveillance se concentre sur les charges de travail réelles exécutées au sein de votre cluster et fournit des informations essentielles sur le comportement, les performances et l'interaction de vos applications avec les autres services.

La surveillance des applications inclut la surveillance au niveau du conteneur, la surveillance du niveau de service et le suivi distribué.
+ Au **niveau du conteneur**, la surveillance des applications permet de suivre des indicateurs cruciaux tels que l'état de santé du conteneur, le nombre de redémarrages et les modèles de consommation des ressources. Ces indicateurs vous aident à identifier les conteneurs problématiques susceptibles de consommer des ressources excessives ou de connaître des redémarrages fréquents, ce qui peut indiquer des problèmes sous-jacents tels que des fuites de mémoire ou des problèmes de configuration. En surveillant les événements du cycle de vie des conteneurs, vous pouvez garantir le bon comportement des applications et résoudre rapidement les problèmes de déploiement.
+ La **surveillance des niveaux de service** fournit une visibilité sur les performances des applications et les indicateurs de fiabilité tels que les temps de réponse, les taux d'erreur et le débit des demandes. Ces indicateurs sont essentiels pour maintenir les objectifs de niveau de service (SLOs) et garantir une expérience positive à l'utilisateur final. Vous pouvez suivre la latence sur les différents points de terminaison des services, identifier les goulots d'étranglement liés aux performances et surveiller les modèles d'erreur pour garantir la fiabilité des applications.
+ Le **traçage distribué** est un autre aspect essentiel de la surveillance des applications, en particulier dans les architectures de microservices. En mettant en œuvre le suivi, vous pouvez suivre les demandes au fur et à mesure qu'elles circulent dans différents services, comprendre les dépendances et identifier les goulots d'étranglement en matière de performances. Cette end-to-end visibilité vous permet d'optimiser les interactions entre les services et de résoudre les problèmes complexes qui concernent plusieurs composants.

Les métriques personnalisées des applications jouent un rôle crucial dans la fourniture d'informations spécifiques à l'entreprise. Il peut s'agir de mesures telles que les taux de traitement des commandes, les fréquences de connexion des utilisateurs ou les taux de réussite des transactions. Vous pouvez corréler ces indicateurs personnalisés avec les indicateurs d'infrastructure et de conteneur afin de mieux comprendre comment les performances de l'infrastructure affectent les opérations commerciales et de prendre des décisions basées sur les données pour le dimensionnement et l'optimisation.

L'importance de la surveillance des applications réside dans sa capacité à fournir une vue complète de l'état et des performances des applications. Cette surveillance vous permet de maintenir une qualité de service élevée, de résoudre rapidement les problèmes et d'optimiser en permanence vos applications pour atteindre les objectifs commerciaux.

## Surveillance de la sécurité
<a name="security"></a>

La surveillance de la sécurité dans Amazon EKS est une activité essentielle qui aide les entreprises à préserver l'intégrité, la confidentialité et la conformité de leurs environnements Kubernetes. Cette approche de sécurité complète combine surveillance continue, détection des menaces et surveillance de la conformité afin de protéger les charges de travail conteneurisées contre les risques de sécurité potentiels et les accès non autorisés. Il inclut la surveillance de l'authentification et des autorisations, la surveillance de la sécurité du réseau, ainsi que la surveillance de la configuration et de la conformité.
+ La **surveillance de l'authentification et des autorisations** constitue la première ligne de défense en suivant toutes les tentatives d'accès au cluster. Cela inclut la surveillance des demandes du serveur d'API, le suivi des tentatives de connexion réussies et infructueuses et l'audit des modifications du contrôle d'accès basé sur les rôles (RBAC). En tenant des journaux d'audit détaillés indiquant qui a accédé à quelles ressources et quand, vous pouvez rapidement détecter les failles de sécurité potentielles, les tentatives d'accès non autorisées ou les activités d'augmentation de privilèges. Cela est particulièrement crucial dans les environnements à locataires multiples où le maintien de contrôles d'accès stricts est essentiel.
+ **La surveillance de la sécurité du réseau** se concentre sur la détection et la prévention des communications non autorisées entre les modules et les services. En surveillant les violations des règles du réseau et les modèles de trafic inhabituels, vous pouvez identifier les menaces de sécurité potentielles, telles que les tentatives d'évasion de conteneurs ou les mouvements latéraux au sein du cluster. Cela inclut le suivi des communications internes au cluster et des modèles de trafic externe afin de garantir que les conteneurs communiquent uniquement avec les points de terminaison autorisés et respectent les politiques de sécurité définies.
+ La **surveillance de la configuration et de la conformité** est essentielle pour maintenir les bases de sécurité et répondre aux exigences réglementaires. Cela implique de scanner en permanence les images des conteneurs pour détecter les vulnérabilités, de surveiller la sécurité de l'exécution et de suivre les modifications de configuration susceptibles d'avoir un impact sur le niveau de sécurité. Des audits de conformité réguliers garantissent le respect des normes du secteur et des politiques de sécurité de l'organisation, et la détection des écarts de configuration permet d'empêcher les modifications non autorisées susceptibles de présenter des risques de sécurité.

La surveillance de la sécurité dans Amazon EKS fournit la visibilité et le contrôle nécessaires pour vous protéger contre les menaces de sécurité modernes tout en garantissant le respect des exigences réglementaires. En mettant en œuvre une surveillance complète de la sécurité, votre entreprise peut maintenir une position de sécurité solide, réagir rapidement aux incidents de sécurité et démontrer sa conformité aux différentes normes réglementaires.

# Outils de surveillance pour Amazon EKS
<a name="monitoring-tools"></a>

Cette section décrit trois catégories d'outils de surveillance Amazon EKS : les services de AWS surveillance, les solutions open source ou propriétaires et les outils spécialisés.

## AWS services
<a name="monitoring-services"></a>
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) : service complet de surveillance et de journalisation

  CloudWatch constitue l'épine dorsale des solutions de AWS surveillance et fournit des fonctionnalités étendues pour les environnements Amazon EKS. Il fournit Container Insights pour des métriques granulaires sur les conteneurs et les clusters, afin que vous puissiez surveiller les performances, l'utilisation des ressources et l'état des applications. Le service excelle dans l'agrégation et l'analyse des journaux, et prend en charge la journalisation centralisée entre les conteneurs et les nœuds. CloudWatch s'intègre naturellement à Services AWS. Il fournit une configuration automatique des alarmes et prend en charge des métriques et des tableaux de bord personnalisés, ce qui en fait un outil essentiel pour la surveillance d'Amazon EKS.
+ [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html): plateforme de suivi distribué avancée

  X-Ray améliore l'observabilité en fournissant des fonctionnalités sophistiquées de traçage distribué. Sa visualisation de la carte des services fournit des informations claires sur l'architecture et les dépendances des applications, et le suivi détaillé des demandes permet d'identifier les goulots d'étranglement liés aux performances des services. X-Ray peut suivre les demandes via des architectures de microservices complexes, ce qui en fait un outil précieux pour le dépannage et l'optimisation, en particulier dans les systèmes distribués qui s'étendent sur plusieurs Services AWS systèmes.
+ [AWS Distribution pour OpenTelemetry : cadre d'](https://aws-otel.github.io/)observabilité unifié

  Distro for OpenTelemetry fournit des fonctionnalités de collecte de données unifiées avec un support multiplateforme, ce qui le rend idéal pour les environnements hybrides. Ce service s'intègre à d'autres Services AWS, prend en charge une instrumentation personnalisée et offre une flexibilité dans la mise en œuvre de solutions de surveillance complètes tout en maintenant la compatibilité avec les normes du secteur.
+ [Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) : visualisation adaptée aux entreprises

  Amazon Managed Grafana fournit un service entièrement géré pour la visualisation et l'analyse des données. Il offre une intégration parfaite avec d'autres Services AWS fonctionnalités de sécurité intégrées et une évolutivité adaptée aux entreprises. Le service simplifie la création et la gestion des tableaux de bord tout en fournissant des fonctionnalités avancées telles que l'accès aux sources de données entre comptes et leur intégration. AWS IAM Identity Center
+ [Amazon Managed Service pour Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) : surveillance gérée, sécurisée et hautement disponible

  Amazon Managed Service for Prometheus est un service de surveillance entièrement géré et compatible avec Prometheus. Il fournit une mise à l'échelle automatisée, une haute disponibilité et une ingestion et une interrogation sécurisées des métriques. Le service s'intègre parfaitement à Amazon EKS et élimine les frais opérationnels liés à la gestion des serveurs Prometheus.

## Solutions open source ou propriétaires
<a name="monitoring-open-source"></a>

Les AWS outils décrits dans la section précédente offrent une intégration fluide et des services gérés. Les outils open source répertoriés dans cette section se complètent en Services AWS offrant de la flexibilité et de nombreuses options de personnalisation. Comprendre les fonctionnalités et les cas d'utilisation de chaque outil vous aide à concevoir des stratégies de surveillance qui répondent le mieux à vos exigences spécifiques.
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html) : boîte à outils de collecte de métriques

  Prometheus est une solution open source pour la collecte de métriques dans les environnements Kubernetes. Sa base de données chronologiques et son langage de requête ProMQL permettent des analyses métriques sophistiquées. Les fonctionnalités de découverte de services de la plateforme s'adaptent automatiquement aux environnements Kubernetes dynamiques, et son système de gestion des alertes vous tient informé des problèmes critiques. Prometheus propose de nombreuses options d'intégration, ce qui en fait un choix polyvalent pour une surveillance complète des métriques.
+ [Grafana : moteur](https://grafana.com/docs/grafana-cloud/monitor-infrastructure/kubernetes-monitoring/configuration/config-other-methods/config-aws-eks/) de visualisation avancé

  Grafana transforme les données de surveillance complexes en informations exploitables grâce à ses capacités de visualisation. La plateforme crée des tableaux de bord personnalisés qui combinent des données provenant de sources multiples et fournissent une vue unifiée des indicateurs de l'infrastructure et des applications. Sa prise en charge de diverses sources de données et ses fonctionnalités de gestion des alertes permettent une surveillance complète. Grafana peut vous aider à visualiser les données historiques et en temps réel, afin que vous puissiez identifier les tendances et prendre des décisions éclairées.
+ [Fluent Bit](https://fluentbit.io/) : couche de journalisation unifiée

  Cette solution de journalisation permet de collecter et de gérer les journaux pour les environnements Kubernetes. Son intégration native à Kubernetes garantit une collecte fluide des journaux à partir des conteneurs et des nœuds, et sa prise en charge de plusieurs destinations de sortie offre une flexibilité dans le stockage et l'analyse des journaux. Des fonctionnalités avancées telles que l'analyse et le filtrage des journaux vous permettent de traiter et d'acheminer les journaux en fonction d'exigences spécifiques. La légèreté de Fluent Bit le rend particulièrement adapté aux environnements conteneurisés.
+ [Datadog : observabilité](https://www.datadoghq.com/blog/eks-monitoring-datadog/) complète

  Datadog fournit des fonctionnalités de surveillance complètes avec le support natif de Kubernetes. Il propose la surveillance de l'infrastructure, la surveillance des performances des applications (APM), la gestion des journaux et des analyses en temps réel. Vous pouvez utiliser la découverte automatique des services et le vaste catalogue d'intégration de la plateforme pour la surveillance d'Amazon EKS, ainsi que ses fonctionnalités d'apprentissage automatique pour détecter les anomalies et prévoir les problèmes potentiels.
+ [New Relic : surveillance](https://docs.newrelic.com/docs/infrastructure/amazon-integrations/connect/eks-add-on/) des performances des applications

  New Relic offre une visibilité sur les performances des applications et l'état de santé de l'infrastructure. Son intégration avec Kubernetes fournit des informations détaillées sur les conteneurs, un suivi distribué et des tableaux de bord personnalisés. La plateforme vous aide à corréler les performances des applications avec les indicateurs de l'infrastructure, afin que vous puissiez rapidement identifier et résoudre les problèmes.
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/opensearch-service/resources/the-benefits-of-the-elk-stack/) : analyse de logs et recherche

  L'ELK Stack combine Elasticsearch, Logstash et Kibana pour fournir des fonctionnalités de gestion et d'analyse des journaux. Il offre des fonctionnalités de recherche avancées, des outils de visualisation et des fonctionnalités d'apprentissage automatique. Vous pouvez utiliser la pile pour gérer de gros volumes de données de journal provenant de vos environnements Amazon EKS.

## Outils spécialisés
<a name="monitoring-special"></a>

Vous pouvez combiner les outils suivants en fonction de vos besoins spécifiques en matière de surveillance, de l'échelle des opérations et des préférences organisationnelles. L'essentiel est de créer un système de surveillance offrant une visibilité complète tout en restant gérable et rentable.
+ [kube-state-metrics (KSM)](https://github.com/kubernetes/kube-state-metrics) : surveillance de l'état de Kubernetes

  Ce service complémentaire écoute le serveur d'API Kubernetes et génère des métriques sur l'état des objets. Il fournit des informations sur l'état des déploiements, des pods et des autres ressources Kubernetes.
+ [Serveur de métriques Kubernetes : mesures des ressources](https://docs.aws.amazon.com/eks/latest/userguide/metrics-server.html)

  Ce serveur de métriques collecte des métriques de ressources à partir de kubelets et les expose via l'API de métriques Kubernetes. Il fournit une mise à l'échelle automatique des modules horizontaux et des mesures de base du processeur et de la mémoire.
+ [Kubecost](https://github.com/kubecost/cost-analyzer-helm-chart) : surveillance des coûts Kubernetes

  Des outils tels que Kubecost fournissent une analyse détaillée des coûts et des recommandations d'optimisation pour les clusters EKS. Ils vous aident à comprendre et à optimiser les dépenses liées au cloud dans différents espaces de noms, déploiements et services.

# Mise en œuvre de la haute disponibilité pour les solutions de surveillance Amazon EKS
<a name="monitoring-ha-setup"></a>

Une stratégie de haute disponibilité (HA) robuste pour la surveillance d'Amazon EKS est essentielle pour garantir une visibilité continue de votre environnement Kubernetes. Cette section décrit une approche globale de la mise en œuvre de la haute disponibilité dans différents aspects de votre infrastructure de surveillance.

## Redondance architecturale et évolutivité
<a name="architecture"></a>

La création d'un système de surveillance à haute disponibilité commence par une conception architecturale appropriée. Les composants de surveillance doivent être répartis sur plusieurs zones de AWS disponibilité afin de se protéger contre les défaillances de zone. Cela inclut la mise en œuvre d'une mise à l'échelle horizontale pour les composants de surveillance critiques tels que les serveurs Prometheus, les collecteurs de journaux et les gestionnaires d'alertes. Vous pouvez utiliser des services AWS gérés tels qu'Amazon Managed Service for Prometheus et Amazon Managed Grafana pour réduire les frais d'exploitation tout en garantissant une haute disponibilité. Configurez des mécanismes de basculement automatique pour maintenir la continuité du service en cas de défaillance des composants, en mettant en place des contrôles de santé et des procédures de restauration automatisées.

## Stratégie de stockage de données résiliente
<a name="data-storage"></a>

La résilience du stockage des données est essentielle au maintien de la fiabilité du système de surveillance. La mise en œuvre de solutions de stockage distribué garantit que les données métriques et les journaux restent accessibles même en cas de défaillance de nœuds de stockage individuels. Cela inclut la configuration d'une réplication appropriée des données sur plusieurs zones de disponibilité et l'utilisation de différents backends de stockage à des fins de redondance. Établissez des procédures de sauvegarde régulières pour les données historiques, avec des processus de restauration documentés pour différents scénarios de défaillance. Pour les bases de données chronologiques telles que Prometheus, la mise en œuvre de solutions de stockage à distance permet de séparer les problèmes de stockage de la collecte de données et d'améliorer la fiabilité globale du système.

## Gestion des alertes redondantes
<a name="alert-mgmt"></a>

La gestion des alertes nécessite une attention particulière dans une configuration HA. Le déploiement de gestionnaires d'alertes redondants garantit que les notifications critiques parviennent aux destinataires prévus, même en cas de défaillance du système. Configurez plusieurs canaux de notification tels que les e-mails, les SMS, Slack, et PagerDuty pour fournir d'autres voies de communication. Utilisez des mécanismes de déduplication des alertes pour éviter les tempêtes d'alertes en cas de défaillance partielle du système, ainsi que des méthodes de notification de secours pour garantir que les alertes critiques ne soient jamais manquées. La mise en œuvre de la corrélation des alertes permet de maintenir le contexte lors des scénarios de basculement et d'éviter les notifications dupliquées provenant de systèmes redondants.

## Équilibrage de charge et découverte de services
<a name="load-balancing"></a>

Un bon équilibrage de charge est essentiel pour maintenir des services de surveillance stables. AWS Les équilibreurs de charge des applications répartissent le trafic de surveillance entrant sur plusieurs terminaux, et les contrôles de santé garantissent que le trafic est acheminé uniquement vers des instances saines. Les mécanismes de découverte de services aident les composants de surveillance à s'adapter automatiquement aux modifications de l'environnement, telles que l'ajout de nouveaux nœuds ou services. Déployez des agents de surveillance de manière cohérente sur tous les nœuds en les utilisant DaemonSets pour garantir une couverture complète à mesure que le cluster évolue.

## Autres considérations relatives à la haute disponibilité
<a name="ha-considerations"></a>

Résilience du réseau :
+ Implémentez des chemins réseau redondants.
+ Configurez une conception de sous-réseau appropriée dans les zones de disponibilité.
+ À utiliser [AWS Direct Connect](https://docs.aws.amazon.com/whitepapers/latest/aws-vpc-connectivity-options/aws-direct-connect.html)avec des itinéraires de sauvegarde.
+ Configurez les groupes de sécurité et les listes de contrôle d'accès réseau appropriés (réseau ACLs).

Surveillance des moniteurs :
+ Déployez des systèmes de surveillance secondaires.
+ Mettre en œuvre une surveillance interrégionale.
+ Configurez les alertes pour les systèmes qui ne répondent pas.
+ Testez régulièrement les procédures de basculement.

Planification des capacités :
+ Surveillez les tendances d'utilisation des ressources.
+ Mettez en œuvre un dimensionnement prédictif.
+ Testez régulièrement les performances.

Gestion des données :
+ Mettez en œuvre des politiques de conservation des données.
+ Configurez l'agrégation des métriques.
+ Planifiez la gestion du cycle de vie des données.
+ Optimisez régulièrement le stockage.

Procédures de récupération :
+ Processus de récupération de documents.
+ Testez régulièrement la reprise après sinistre.
+ Mettez en œuvre une restauration automatique dans la mesure du possible.
+ Identifiez et mettez en œuvre des voies d'escalade claires.

En mettant en œuvre ces pratiques de haute disponibilité, vous pouvez vous assurer que votre infrastructure de surveillance Amazon EKS reste fiable et résiliente, et que vous bénéficiez d'une visibilité continue sur vos environnements Kubernetes, même lors de divers scénarios de défaillance. Des tests et des mises à jour réguliers de ces configurations HA garantissent qu'elles restent efficaces au fur et à mesure de l'évolution de l'environnement.

# Bonnes pratiques en matière de surveillance dans Amazon EKS
<a name="monitoring-best-practices"></a>

## Approche de mise en œuvre stratégique
<a name="implementation"></a>

Une stratégie de surveillance Amazon EKS réussie commence par une approche de mise en œuvre progressive et bien planifiée.
+ Commencez par identifier et surveiller les indicateurs critiques qui ont une incidence directe sur les opérations de votre entreprise et la fiabilité des applications. Cette base doit inclure des mesures d'infrastructure essentielles, des indicateurs clés de performance des applications et des mesures de sécurité critiques. Élargissez progressivement la couverture du suivi en fonction des besoins opérationnels et des leçons apprises, et assurez-vous que chaque ajout apporte une valeur significative.
+ Mettez en œuvre des processus de déploiement automatisés en utilisant des outils d'infrastructure en tant que code (IaC) tels que Terraform ou CloudFormation pour garantir la cohérence et la répétabilité.
+ Testez et validez les systèmes de surveillance pour garantir la fiabilité et la précision.
+ Affinez les paramètres de surveillance en permanence en fonction de l'évolution des besoins de l'entreprise.

## Gestion efficace des données
<a name="data-mgmt"></a>

Une bonne gestion des données est essentielle pour maintenir une solution de surveillance efficace et rentable.
+ Mettez en œuvre des politiques de conservation des données claires qui équilibrent les besoins d'analyse historique avec les coûts de stockage.
+ Configurez les taux d'échantillonnage appropriés pour les différents types de mesures : fréquence plus élevée pour les métriques critiques et fréquence inférieure pour les moins critiques.
+ Utilisez l'agrégation de métriques pour réduire le volume de données tout en conservant des informations pertinentes, en particulier pour l'analyse des tendances à long terme.
+ Mettez en œuvre des procédures systématiques de conservation et d'archivage des journaux pour les systèmes de journalisation centralisés (tels que les CloudWatch journaux) afin de gérer les coûts de stockage et de garantir l'accès aux données importantes.
**Note**  
La rotation des journaux au niveau du conteneur est gérée automatiquement par le kubelet dans Amazon EKS version 1.21 ou ultérieure.
+ Envisagez de mettre en œuvre une hot-warm-cold architecture pour le stockage des journaux afin d'optimiser à la fois la vitesse d'accès et la rentabilité.

## Configuration et gestion des alertes
<a name="alert-config"></a>

La configuration des alertes doit être soigneusement étudiée afin de maintenir l'efficacité sans provoquer de fatigue liée aux alertes.
+ Définissez des seuils clairs et exploitables en fonction des objectifs de niveau de service (SLOs) et des modèles de performance historiques.
+ Mettez en œuvre un système de gravité des alertes à plusieurs niveaux qui fait clairement la distinction entre les problèmes critiques nécessitant une attention immédiate et les problèmes moins urgents.
+ Assurez-vous que les alertes fournissent suffisamment de contexte et d'informations exploitables pour faciliter la résolution rapide des problèmes.
+ Établissez des procédures d'escalade claires avec une propriété et des temps de réponse définis pour les différentes sévérités d'alerte.
+ Passez régulièrement en revue et affinez les configurations d'alerte afin de préserver leur pertinence et leur efficacité.

## Optimisation des ressources
<a name="resource"></a>

La surveillance continue de l'utilisation des ressources est essentielle pour maintenir des opérations rentables.
+ Mettez en œuvre une surveillance complète des ressources sur tous les composants du cluster, y compris les nœuds, les pods et les volumes persistants.
+ Configurez le dimensionnement automatique en fonction des modèles d'utilisation réels et des exigences de performance pour garantir une utilisation efficace des ressources tout en préservant les performances.
+ Utilisez des balises de répartition des coûts pour suivre la consommation de ressources par différentes équipes, applications ou environnements.
+ Analysez régulièrement les indicateurs d'efficacité des ressources pour identifier les opportunités d'optimisation et mettre en œuvre des améliorations.
+ Envisagez de mettre en œuvre des outils de gestion des coûts pour suivre et optimiser les dépenses liées au cloud.

## Sécurité
<a name="security"></a>

Les considérations de sécurité doivent faire partie intégrante de votre stratégie de surveillance.
+ Mettez en œuvre les [principes du moindre privilège d'accès](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_permissions_least_privileges.html) pour tous les composants de surveillance afin de garantir que les utilisateurs et les services ne disposent que des autorisations dont ils ont besoin.
+ Activez la journalisation complète des audits pour suivre tous les accès et modifications apportés aux systèmes de surveillance.
+ Procédez à des examens de sécurité réguliers des configurations de surveillance et des modèles d'accès afin d'identifier les vulnérabilités potentielles.
+ Mettez en œuvre le chiffrement pour les données de surveillance sensibles en transit et au repos.
+ Intégrez la surveillance de la sécurité aux systèmes de gestion des informations et des événements de sécurité (SIEM) existants pour une visibilité complète de la sécurité.

# Considérations relatives à la surveillance avancée dans Amazon EKS
<a name="monitoring-considerations"></a>

Optimisation des performances :
+ Optimisez les intervalles de collecte des mesures.
+ Configurez des modèles de requêtes efficaces.
+ Mettez en œuvre la pré-agrégation des métriques.
+ Utilisez des solutions de stockage appropriées.

Conformité et gouvernance :
+ Conservez des pistes d'audit.
+ Mettez en œuvre le suivi de la conformité.
+ Fournir des rapports de conformité réguliers.
+ Procédures de suivi des documents.

Reprise après sinistre :
+ Sauvegardez régulièrement les configurations de surveillance.
+ Procédures de récupération de documents.
+ Testez les processus de restauration.

Amélioration continue :
+ Surveillez régulièrement les sessions de révision.
+ Optimisez les cycles de performance.
+ Mettez à jour le suivi en fonction des incidents.
+ Intégrez les commentaires des utilisateurs.

Ces meilleures pratiques fournissent un cadre pour la mise en œuvre et la maintenance de solutions de surveillance efficaces pour les environnements Amazon EKS. Passez régulièrement en revue et mettez à jour ces pratiques afin qu'elles restent conformes aux besoins de votre organisation et aux normes du secteur. La surveillance n'est pas une configuration ponctuelle, c'est un processus continu qui nécessite une attention et un perfectionnement réguliers.