Surveillance des données du cluster avec Amazon CloudWatch - Amazon EKS

Aidez à améliorer cette page

Pour contribuer à ce guide de l’utilisateur, cliquez sur le lien Modifier cette page sur GitHub qui se trouve dans le volet droit de chaque page.

Surveillance des données du cluster avec Amazon CloudWatch

Amazon CloudWatch est un service de surveillance qui collecte des métriques et des journaux provenant de vos ressources cloud. CloudWatch fournit gratuitement certaines métriques Amazon EKS de base lorsque vous utilisez un cluster en version 1.28 et ultérieure. Cependant, l’utilisation de l’opérateur CloudWatch Observability comme module complémentaire Amazon EKS permet de bénéficier de fonctionnalités d’observabilité avancées.

Métriques de base dans Amazon CloudWatch

Pour les clusters exécutant Kubernetes en version 1.28 et ultérieure, vous bénéficiez gratuitement de métriques CloudWatch natives dans l’espace de noms AWS/EKS. Le tableau ci-dessous présente les principales métriques disponibles pour les versions prises en charge. Chaque métrique est fournie avec une fréquence d’une minute.

Nom des métriques Description

scheduler_schedule_attempts_total

Nombre total de tentatives effectuées par le planificateur pour planifier les pods dans le cluster sur une période donnée. Cette métrique permet de surveiller la charge de travail du planificateur et peut indiquer une pression de planification ou des problèmes potentiels d’affectation des pods.

Unités : nombre

Statistiques valides : somme

scheduler_schedule_attempts_SCHEDULED

Nombre de tentatives réussies du planificateur pour affecter des pods à des nœuds du cluster sur une période donnée.

Unités : nombre

Statistiques valides : somme

scheduler_schedule_attempts_UNSCHEDULABLE

Nombre de tentatives de planification de pods qui n’ont pas pu être planifiés sur une période donnée en raison de contraintes valides, telles que l’insuffisance du processeur ou de la mémoire sur un nœud.

Unités : nombre

Statistiques valides : somme

scheduler_schedule_attempts_ERROR

Nombre de tentatives de planification de pods ayant échoué pendant une période donnée en raison d’un problème interne du planificateur lui-même, par exemple, des problèmes de connectivité avec le serveur API.

Unités : nombre

Statistiques valides : somme

scheduler_pending_pods

Nombre total de pods en attente de planification par le planificateur dans le cluster pendant une période donnée.

Unités : nombre

Statistiques valides : somme

scheduler_pending_pods_ACTIVEQ

Nombre de pods en attente dans activeQ, qui attendent d’être planifiés dans le cluster pendant une période donnée.

Unités : nombre

Statistiques valides : somme

scheduler_pending_pods_UNSCHEDULABLE

Nombre de pods en attente pour lesquels le planificateur a tenté la planification, mais a échoué, et qui restent dans un état non planifiable en attente d’une nouvelle tentative.

Unités : nombre

Statistiques valides : somme

scheduler_pending_pods_BACKOFF

Nombre de pods en attente dans backoffQ, en état de backoff, qui attendent la fin de leur période de backoff.

Unités : nombre

Statistiques valides : somme

scheduler_pending_pods_GATED

Nombre de pods en attente dans un état d’accès contrôlé, qui ne peuvent pas être planifiés tant qu’ils ne remplissent pas certaines conditions requises.

Unités : nombre

Statistiques valides : somme

apiserver_request_total

Nmbre de requêtes HTTP adressées à tous les serveurs API du cluster.

Unités : nombre

Statistiques valides : somme

apiserver_request_total_4XX

Nombre de requêtes HTTP adressées à tous les serveurs API du cluster ayant renvoyé un code d’état 4XX (erreur client).

Unités : nombre

Statistiques valides : somme

apiserver_request_total_429

Nombre de requêtes HTTP adressées à tous les serveurs API du cluster ayant renvoyé un code d’état 429, qui se produit lorsque les clients dépassent les seuils de limitation du débit.

Unités : nombre

Statistiques valides : somme

apiserver_request_total_5XX

Nombre de requêtes HTTP adressées à tous les serveurs API du cluster ayant renvoyé un code d’état 5XX (erreur serveur).

Unités : nombre

Statistiques valides : somme

apiserver_request_total_LIST_PODS

Nombre de requêtes des pods LIST adressées à tous les serveurs API du cluster.

Unités : nombre

Statistiques valides : somme

apiserver_request_duration_seconds_PUT_P99

99e percentile de la latence des requêtes PUT calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes PUT sont traitées.

Unités : secondes

Statistiques valides : moyenne

apiserver_request_duration_seconds_PATCH_P99

99e percentile de la latence des requêtes PATCH calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes PATCH sont traitées.

Unités : secondes

Statistiques valides : moyenne

apiserver_request_duration_seconds_POST_P99

99e percentile de la latence des requêtes POST calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes POST sont traitées.

Unités : secondes

Statistiques valides : moyenne

apiserver_request_duration_seconds_GET_P99

99e percentile de la latence des requêtes GET calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes GET sont traitées.

Unités : secondes

Statistiques valides : moyenne

apiserver_request_duration_seconds_LIST_P99

99e percentile de la latence des requêtes LIST calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes LIST sont traitées.

Unités : secondes

Statistiques valides : moyenne

apiserver_request_duration_seconds_DELETE_P99

99e percentile de la latence des requêtes DELETE calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes DELETE sont traitées.

Unités : secondes

Statistiques valides : moyenne

apiserver_current_inflight_requests_MUTATING

Nombre de requêtes mutantes (POST, PUT, DELETE, PATCH) en cours de traitement sur l’ensemble des serveurs API du cluster. Cette métrique représente les requêtes en cours, dont le traitement n’est pas encore terminé.

Unités : nombre

Statistiques valides : somme

apiserver_current_inflight_requests_READONLY

Nombre de requêtes en lecture seule (GET, LIST) actuellement traitées sur tous les serveurs API du cluster. Cette métrique représente les requêtes en cours, dont le traitement n’est pas encore terminé.

Unités : nombre

Statistiques valides : somme

apiserver_admission_webhook_request_total

Nombre de requêtes adressées aux webhooks d’admission sur tous les serveurs API du cluster.

Unités : nombre

Statistiques valides : somme

apiserver_admission_webhook_request_total_ADMIT

Nombre de requêtes adressées aux webhooks d’admission mutants sur tous les serveurs API du cluster.

Unités : nombre

Statistiques valides : somme

apiserver_admission_webhook_request_total_VALIDATING

Nombre de requêtes adressées aux webhooks d’admission validants sur tous les serveurs API du cluster.

Unités : nombre

Statistiques valides : somme

apiserver_admission_webhook_rejection_count

Nombre de requêtes adressées aux webhooks d’admission sur tous les serveurs API du cluster qui ont été rejetées.

Unités : nombre

Statistiques valides : somme

apiserver_admission_webhook_rejection_count_ADMIT

Nombre de requêtes adressées aux webhooks d’admission mutants sur tous les serveurs API du cluster qui ont été rejetées.

Unités : nombre

Statistiques valides : somme

apiserver_admission_webhook_rejection_count_VALIDATING

Nombre de requêtes adressées aux webhooks d’admission validants sur tous les serveurs API du cluster qui ont été rejetées.

Unités : nombre

Statistiques valides : somme

apiserver_admission_webhook_admission_duration_seconds

Le 99e centile de la latence des requêtes adressées aux webhooks d’admission validants, calculé à partir de toutes les requêtes sur l’ensemble des serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % de toutes les requêtes adressées aux webhooks d’admission validants sont terminées.

Unités : secondes

Statistiques valides : moyenne

apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99

Le 99e centile de la latence des requêtes adressées aux webhooks d’admission mutants, calculé à partir de toutes les requêtes sur l’ensemble des serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % de toutes les requêtes adressées aux webhooks d’admission mutants sont terminées.

Unités : secondes

Statistiques valides : moyenne

apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99

Le 99e centile de la latence des requêtes adressées aux webhooks d’admission tiers, calculé à partir de toutes les requêtes sur l’ensemble des serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % de toutes les requêtes adressées aux webhooks d’admission tiers sont terminées.

Unités : secondes

Statistiques valides : moyenne

apiserver_storage_size_bytes

Taille physique, en octets, du fichier de base de données etcd utilisé par les serveurs API du cluster. Cette métrique représente l’espace disque réel alloué au stockage.

Unités : octets

Statistiques valides : maximum

Amazon CloudWatch Observability Operator

L’observabilité Amazon CloudWatch collecte des journaux, des métriques et des données de suivi en temps réel. Ces données sont envoyées vers Amazon CloudWatch et AWS X-Ray. Vous pouvez installer ce module complémentaire pour activer à la fois les signaux d’application CloudWatch et les informations sur les conteneurs CloudWatch avec une observabilité améliorée pour Amazon EKS. Cela vous aide à surveiller l’état et les performances de votre infrastructure et de vos applications conteneurisées. L’opérateur d’observabilité Amazon CloudWatch est conçu pour installer et configurer les composants nécessaires.

Amazon EKS prend en charge l’opérateur CloudWatch Observability en tant que module complémentaire Amazon EKS. Ce module complémentaire active Container Insights sur les composants master Linux et Windows du cluster. Pour activer Container Insights sous Windows, la version du module complémentaire Amazon EKS doit être 1.5.0 ou supérieure. Actuellement, la vigie applicative CloudWatch n’est pas prise en charge sur Amazon EKS pour Windows.

Les rubriques ci-dessous expliquent comment commencer à utiliser l’opérateur CloudWatch Observability pour votre cluster Amazon EKS.