

 **Ajudar a melhorar esta página** 

Para contribuir com este guia de usuário, escolha o link **Editar esta página no GitHub**, disponível no painel direito de cada página.

# Monitorar dados de cluster com o Amazon CloudWatch
<a name="cloudwatch"></a>

O Amazon CloudWatch é um serviço de monitoramento que coleta métricas e logs dos seus recursos na nuvem. O CloudWatch fornece algumas métricas básicas do Amazon EKS gratuitamente ao usar um novo cluster na versão `1.28` ou superior. No entanto, ao usar o CloudWatch Observability Operator como um complemento do Amazon EKS, você pode obter recursos aprimorados de observabilidade.

## Métricas básicas no Amazon CloudWatch
<a name="cloudwatch-basic-metrics"></a>

Se o cluster estiver na versão `1.28` ou mais recente do Kubernetes, as métricas fornecidas do CloudWatch serão disponibilizadas gratuitamente no namespace do `AWS/EKS`. A tabela a seguir fornece uma lista das métricas básicas que estão disponíveis para as versões com suporte. Cada métrica listada tem um padrão de um minuto.


| Nome da métrica | Descrição | 
| --- | --- | 
|   `apiserver_flowcontrol_current_executing_seats`   |  O número de estações em uso, no momento, para a execução de solicitações de API. A alocação de estações é determinada pela configuração de priority\$1level e de flow\$1schema no [recurso](https://kubernetes.io/docs/concepts/cluster-administration/flow-control/) de prioridade e de equidade da API do Kubernetes.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_schedule_attempts_total`   |  O número total de tentativas do agendador para agendar pods no cluster para um determinado período. Essa métrica ajuda a monitorar a workload do agendador e pode indicar a pressão do agendamento ou possíveis problemas com o posicionamento do pod.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_schedule_attempts_SCHEDULED`   |  O número de tentativas com êxito do agendador em agendar pods em nós no cluster por um determinado período.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_schedule_attempts_UNSCHEDULABLE`   |  O número de tentativas de agendar pods que não puderam ser agendados por um determinado período devido a restrições válidas, como CPU ou memória insuficientes em um nó.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_schedule_attempts_ERROR`   |  O número de tentativas de agendar pods que falharam em um determinado período devido a um problema interno com o próprio agendador, como problemas de conectividade do servidor de API.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_pending_pods`   |  O número total de pods pendentes a serem agendados pelo agendador no cluster em um determinado período.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_pending_pods_ACTIVEQ`   |  O número de pods pendentes na activeQ, que estão aguardando para serem agendados no cluster por um determinado período.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_pending_pods_UNSCHEDULABLE`   |  O número de pods pendentes que o agendador tentou agendar e falhou, e que estão mantidos em um estado não agendável para nova tentativa.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_pending_pods_BACKOFF`   |  O número de pods pendentes em `backoffQ` em um estado de backoff que aguardam a expiração do período de backoff.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `scheduler_pending_pods_GATED`   |  O número de pods pendentes que estão atualmente aguardando em um estado fechado, pois não podem ser agendados até que atendam às condições exigidas.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_request_total`   |  O número de solicitações HTTP feitas em todos os servidores de API no cluster.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_request_total_4XX`   |  O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram em códigos de status `4XX` (erro do cliente).  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_request_total_429`   |  O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram no código de status `429`, que ocorre quando os clientes excedem os limites de taxa.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_request_total_5XX`   |  O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram em códigos de status `5XX` (erro do servidor).  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_request_total_LIST_PODS`   |  O número de solicitações de pods `LIST` feitas a todos os servidores de API no cluster.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_request_duration_seconds_PUT_P99`   |  O 99.º percentil de latência para solicitações `PUT` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `PUT` são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_request_duration_seconds_PATCH_P99`   |  O 99.º percentil de latência para solicitações `PATCH` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `PATCH` são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_request_duration_seconds_POST_P99`   |  O 99.º percentil de latência para solicitações `POST` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `POST` são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_request_duration_seconds_GET_P99`   |  O 99.º percentil de latência para solicitações `GET` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `GET` são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_request_duration_seconds_LIST_P99`   |  O 99.º percentil de latência para solicitações `LIST` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `LIST` são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_request_duration_seconds_DELETE_P99`   |  O 99.º percentil de latência para solicitações `DELETE` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `DELETE` são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_current_inflight_requests_MUTATING`   |  O número de solicitações mutantes (`POST`, `PUT`, `DELETE`, `PATCH`) atualmente sendo processadas em todos os servidores de API no cluster. Essa métrica representa solicitações que estão em andamento e ainda não concluíram o processamento.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_current_inflight_requests_READONLY`   |  O número de solicitações somente leitura (`GET`, `LIST`) que estão sendo processadas atualmente em todos os servidores de API no cluster. Essa métrica representa solicitações que estão em andamento e ainda não concluíram o processamento.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_admission_webhook_request_total`   |  O número de solicitações de webhook de admissão feitas em todos os servidores de API no cluster.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_admission_webhook_request_total_ADMIT`   |  O número de solicitações mutantes de webhook de admissão feitas em todos os servidores de API no cluster.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_admission_webhook_request_total_VALIDATING`   |  O número de solicitações de validação de webhook de admissão feitas em todos os servidores de API no cluster.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_admission_webhook_rejection_count`   |  O número de solicitações de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_admission_webhook_rejection_count_ADMIT`   |  O número de solicitações mutantes de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_admission_webhook_rejection_count_VALIDATING`   |  O número de solicitações de validação de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas.  **Unidades**: contagem  **Estatísticas válidas:** soma  | 
|   `apiserver_admission_webhook_admission_duration_seconds`   |  O 99.º percentil de latência para solicitações de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações de webhook de admissão de terceiros são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99`   |  O 99.º percentil de latência para solicitações mutantes de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações mutantes de webhook de admissão de terceiros são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99`   |  O 99.º percentil de latência para solicitações de validação de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações de validação de webhook de admissão de terceiros são concluídas.  **Unidades:** segundos  **Estatística válida:** média  | 
|   `apiserver_storage_size_bytes`   |  O tamanho físico em bytes do arquivo de banco de dados de armazenamento etcd usado pelos servidores de API no cluster. Essa métrica representa o espaço em disco real alocado para o armazenamento.  **Unidades:** bytes  **Estatísticas válidas:** máximo  | 

## Amazon CloudWatch Observability Operator
<a name="cloudwatch-operator"></a>

O Amazon CloudWatch Observability coleta logs, métricas e dados de rastreamento em tempo real. Ele os envia para o [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) e para o [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html). É possível instalar este complemento para habilitar o CloudWatch Application Signals e o CloudWatch Container Insights com observabilidade aprimorada para o Amazon EKS. Isso ajuda você a monitorar a integridade e o desempenho da infraestrutura e de aplicações conteinerizadas. O Amazon CloudWatch Observability Operator foi desenvolvido para instalar e configurar os componentes necessários.

O Amazon EKS oferece suporte ao Amazon CloudWatch Observability Operator como um [complemento do Amazon EKS](eks-add-ons.md). O complemento possibilita o uso do Container Insights em nós de processamento do Linux e do Windows no cluster. Para ativar o Container Insights no Windows, a versão do complemento do Amazon EKS deve ser `1.5.0` ou superior. No momento, o CloudWatch Application Signals não é compatível com o Windows para Amazon EKS.

Os tópicos abaixo descrevem como começar a utilizar o CloudWatch Observability Operator para o seu cluster do Amazon EKS.
+ Para obter instruções sobre como instalar esse complemento, consulte [Instalar o CloudWatch Agent com o complemento do EKS do Amazon CloudWatch Observability ou o chart do Help](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html) no *Guia do usuário do Amazon CloudWatch*.
+ Para obter mais informações sobre os CloudWatch Application Signals, consulte [Application Signals](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Application-Monitoring-Sections.html) no *Guia do usuário do Amazon CloudWatch*.
+ Para obter mais informações sobre o Container Insights, consulte [Usar o Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) no *Manual do usuário do Amazon CloudWatch*.