

 **Aidez à améliorer cette page** 

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien **Modifier cette page sur** qui se trouve dans le volet droit de chaque page.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Surveillez les données du cluster avec Amazon CloudWatch
<a name="cloudwatch"></a>

Amazon CloudWatch est un service de surveillance qui collecte des statistiques et des journaux à partir de vos ressources cloud. CloudWatch fournit gratuitement des métriques Amazon EKS de base lorsque vous utilisez un nouveau cluster de version `1.28` ou supérieure. Toutefois, lorsque vous utilisez l'opérateur CloudWatch d'observabilité en tant que module complémentaire Amazon EKS, vous pouvez bénéficier de fonctionnalités d'observabilité améliorées.

## Statistiques de base sur Amazon CloudWatch
<a name="cloudwatch-basic-metrics"></a>

Pour les clusters de versions `1.28` Kubernetes ou supérieures, vous pouvez obtenir des métriques gratuites CloudWatch dans l'espace de noms. `AWS/EKS` Le tableau ci-dessous présente les principales métriques disponibles pour les versions prises en charge. Chaque métrique est fournie avec une fréquence d’une minute.


| Nom des métriques | Description | 
| --- | --- | 
|   `apiserver_flowcontrol_current_executing_seats`   |  Le nombre de postes actuellement utilisés pour exécuter les demandes d'API. [L'attribution des sièges est déterminée par les configurations priority\$1level et flow\$1schema dans la fonctionnalité Priority and Fairness de l'API Kubernetes.](https://kubernetes.io/docs/concepts/cluster-administration/flow-control/)  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_schedule_attempts_total`   |  Nombre total de tentatives effectuées par le planificateur pour planifier les pods dans le cluster sur une période donnée. Cette métrique permet de surveiller la charge de travail du planificateur et peut indiquer une pression de planification ou des problèmes potentiels d’affectation des pods.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_schedule_attempts_SCHEDULED`   |  Nombre de tentatives réussies du planificateur pour affecter des pods à des nœuds du cluster sur une période donnée.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_schedule_attempts_UNSCHEDULABLE`   |  Nombre de tentatives de planification de pods qui n’ont pas pu être planifiés sur une période donnée en raison de contraintes valides, telles que l’insuffisance du processeur ou de la mémoire sur un nœud.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_schedule_attempts_ERROR`   |  Nombre de tentatives de planification de pods ayant échoué pendant une période donnée en raison d’un problème interne du planificateur lui-même, par exemple, des problèmes de connectivité avec le serveur API.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_pending_pods`   |  Nombre total de pods en attente de planification par le planificateur dans le cluster pendant une période donnée.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_pending_pods_ACTIVEQ`   |  Nombre de pods en attente dans activeQ, qui attendent d’être planifiés dans le cluster pendant une période donnée.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_pending_pods_UNSCHEDULABLE`   |  Nombre de pods en attente pour lesquels le planificateur a tenté la planification, mais a échoué, et qui restent dans un état non planifiable en attente d’une nouvelle tentative.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_pending_pods_BACKOFF`   |  Nombre de pods en attente dans `backoffQ`, en état de backoff, qui attendent la fin de leur période de backoff.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `scheduler_pending_pods_GATED`   |  Nombre de pods en attente dans un état d’accès contrôlé, qui ne peuvent pas être planifiés tant qu’ils ne remplissent pas certaines conditions requises.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_request_total`   |  Nmbre de requêtes HTTP adressées à tous les serveurs API du cluster.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_request_total_4XX`   |  Nombre de requêtes HTTP adressées à tous les serveurs API du cluster ayant renvoyé un code d’état `4XX` (erreur client).  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_request_total_429`   |  Nombre de requêtes HTTP adressées à tous les serveurs API du cluster ayant renvoyé un code d’état `429`, qui se produit lorsque les clients dépassent les seuils de limitation du débit.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_request_total_5XX`   |  Nombre de requêtes HTTP adressées à tous les serveurs API du cluster ayant renvoyé un code d’état `5XX` (erreur serveur).  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_request_total_LIST_PODS`   |  Nombre de requêtes des pods `LIST` adressées à tous les serveurs API du cluster.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_request_duration_seconds_PUT_P99`   |  99e percentile de la latence des requêtes `PUT` calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes `PUT` sont traitées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_request_duration_seconds_PATCH_P99`   |  99e percentile de la latence des requêtes `PATCH` calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes `PATCH` sont traitées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_request_duration_seconds_POST_P99`   |  99e percentile de la latence des requêtes `POST` calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes `POST` sont traitées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_request_duration_seconds_GET_P99`   |  99e percentile de la latence des requêtes `GET` calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes `GET` sont traitées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_request_duration_seconds_LIST_P99`   |  99e percentile de la latence des requêtes `LIST` calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes `LIST` sont traitées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_request_duration_seconds_DELETE_P99`   |  99e percentile de la latence des requêtes `DELETE` calculé à partir de toutes les requêtes adressées à tous les serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % des requêtes `DELETE` sont traitées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_current_inflight_requests_MUTATING`   |  Nombre de requêtes mutantes (`POST`, `PUT`, `DELETE`, `PATCH`) en cours de traitement sur l’ensemble des serveurs API du cluster. Cette métrique représente les requêtes en cours, dont le traitement n’est pas encore terminé.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_current_inflight_requests_READONLY`   |  Nombre de requêtes en lecture seule (`GET`, `LIST`) actuellement traitées sur tous les serveurs API du cluster. Cette métrique représente les requêtes en cours, dont le traitement n’est pas encore terminé.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_admission_webhook_request_total`   |  Nombre de requêtes adressées aux webhooks d’admission sur tous les serveurs API du cluster.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_admission_webhook_request_total_ADMIT`   |  Nombre de requêtes adressées aux webhooks d’admission mutants sur tous les serveurs API du cluster.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_admission_webhook_request_total_VALIDATING`   |  Nombre de requêtes adressées aux webhooks d’admission validants sur tous les serveurs API du cluster.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_admission_webhook_rejection_count`   |  Nombre de requêtes adressées aux webhooks d’admission sur tous les serveurs API du cluster qui ont été rejetées.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_admission_webhook_rejection_count_ADMIT`   |  Nombre de requêtes adressées aux webhooks d’admission mutants sur tous les serveurs API du cluster qui ont été rejetées.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_admission_webhook_rejection_count_VALIDATING`   |  Nombre de requêtes adressées aux webhooks d’admission validants sur tous les serveurs API du cluster qui ont été rejetées.  **Unités :** nombre  **Statistiques valides :** somme  | 
|   `apiserver_admission_webhook_admission_duration_seconds`   |  Le 99e centile de la latence des requêtes adressées aux webhooks d’admission validants, calculé à partir de toutes les requêtes sur l’ensemble des serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % de toutes les requêtes adressées aux webhooks d’admission validants sont terminées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99`   |  Le 99e centile de la latence des requêtes adressées aux webhooks d’admission mutants, calculé à partir de toutes les requêtes sur l’ensemble des serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % de toutes les requêtes adressées aux webhooks d’admission mutants sont terminées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99`   |  Le 99e centile de la latence des requêtes adressées aux webhooks d’admission tiers, calculé à partir de toutes les requêtes sur l’ensemble des serveurs API du cluster. Représente le temps de réponse en dessous duquel 99 % de toutes les requêtes adressées aux webhooks d’admission tiers sont terminées.  **Unités :** secondes  **Statistiques valides :** moyenne  | 
|   `apiserver_storage_size_bytes`   |  Taille physique, en octets, du fichier de base de données etcd utilisé par les serveurs API du cluster. Cette métrique représente l’espace disque réel alloué au stockage.  **Unités :** octets  **Statistiques valides :** maximum  | 

## Opérateur Amazon CloudWatch Observability
<a name="cloudwatch-operator"></a>

Amazon CloudWatch Observability collecte des journaux, des métriques et des données de suivi en temps réel. Il les envoie à [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) et à [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html). Vous pouvez installer ce module complémentaire pour activer à la fois CloudWatch Application Signals et CloudWatch Container Insights avec une observabilité améliorée pour Amazon EKS. Cela vous aide à surveiller l’état et les performances de votre infrastructure et de vos applications conteneurisées. L'opérateur Amazon CloudWatch Observability est conçu pour installer et configurer les composants nécessaires.

Amazon EKS prend en charge l'opérateur CloudWatch d'observabilité en tant que [module complémentaire Amazon EKS](eks-add-ons.md). Ce module complémentaire active Container Insights sur les composants master Linux et Windows du cluster. Pour activer Container Insights sous Windows, la version du module complémentaire Amazon EKS doit être `1.5.0` ou supérieure. Actuellement, CloudWatch Application Signals n'est pas pris en charge sur Amazon EKS Windows.

Les rubriques ci-dessous décrivent comment commencer à utiliser CloudWatch Observability Operator pour votre cluster Amazon EKS.
+ Pour obtenir des instructions sur l'installation de ce module complémentaire, consultez [Installer l' CloudWatch agent avec le module complémentaire Amazon CloudWatch Observability EKS ou le tableau Helm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html) dans le *guide de l' CloudWatch utilisateur Amazon*.
+ Pour plus d'informations sur les signaux CloudWatch d'application, consultez la section [Signaux d'application](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Application-Monitoring-Sections.html) dans le *guide de CloudWatch l'utilisateur Amazon*.
+ Pour plus d'informations sur Container Insights, consultez la section [Utilisation de Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) dans le *guide de CloudWatch l'utilisateur Amazon*.