Monitorare i dati dei cluster con Amazon CloudWatch - Amazon EKS

Contribuisci a migliorare questa pagina

Per contribuire a questa guida per l’utente, seleziona il link Edit this page on GitHub che si trova nel riquadro destro di ogni pagina.

Monitorare i dati dei cluster con Amazon CloudWatch

Amazon CloudWatch è un servizio di monitoraggio che raccoglie le metriche e i log dalle tue risorse cloud. CloudWatch fornisce gratuitamente alcune metriche di base di Amazon EKS quando si usa un nuovo cluster della versione 1.28 o superiore. Tuttavia, quando si usa CloudWatch Observability Operator come componente aggiuntivo di Amazon EKS, si possono ottenere funzionalità di osservabilità avanzate.

Metriche di base in Amazon CloudWatch

Per i cluster con versione Kubernetes 1.28 e successive, puoi ottenere gratuitamente le metriche fornite da CloudWatch nel namespace AWS/EKS. La seguente tabella fornisce un elenco delle metriche di base disponibili per le versioni supportate. Ogni metrica presente nell’elenco ha una frequenza di un minuto.

Nome parametro Descrizione

scheduler_schedule_attempts_total

Il numero totale di tentativi da parte pianificatore di pianificare i pod nel cluster per un determinato periodo. Questa metrica aiuta a monitorare il carico di lavoro del pianificatore e può indicare la pressione della pianificazione o potenziali problemi con il posizionamento dei pod.

Unità: numero

Statistiche valide: somma

scheduler_schedule_attempts_SCHEDULED

Il numero di tentativi riusciti da parte pianificatore di pianificare i pod sui nodi nel cluster per un determinato periodo.

Unità: numero

Statistiche valide: somma

scheduler_schedule_attempts_UNSCHEDULABLE

Il numero di tentativi di pianificazione dei pod che non è stato possibile pianificare per un determinato periodo a causa di vincoli validi, quali CPU o memoria insufficienti su un nodo.

Unità: numero

Statistiche valide: somma

scheduler_schedule_attempts_ERROR

Il numero di tentativi di pianificazione dei pod che non sono riusciti in un determinato periodo a causa di un problema interno del pianificatore stesso, ad esempio problemi di connettività del server API.

Unità: numero

Statistiche valide: somma

scheduler_pending_pods

Il numero totale di pod in sospeso che il pianificatore del cluster deve pianificare per un determinato periodo.

Unità: numero

Statistiche valide: somma

scheduler_pending_pods_ACTIVEQ

Il numero di pod in sospeso in ActiveQ che attendono di essere pianificati nel cluster in un determinato periodo.

Unità: numero

Statistiche valide: somma

scheduler_pending_pods_UNSCHEDULABLE

Il numero di pod in sospeso che il pianificatore ha tentato di pianificare senza successo e che vengono mantenuti in uno stato non pianificabile per un nuovo tentativo.

Unità: numero

Statistiche valide: somma

scheduler_pending_pods_BACKOFF

Il numero di Pod in sospeso in backoffQ in uno stato di backoff che sono in attesa della scadenza del periodo di backoff.

Unità: numero

Statistiche valide: somma

scheduler_pending_pods_GATED

Il numero di pod in sospeso che sono attualmente in attesa in uno stato chiuso, in quanto non possono essere pianificati finché non soddisfano le condizioni richieste.

Unità: numero

Statistiche valide: somma

apiserver_request_total

Il numero di richieste HTTP inviate su tutti i server API del cluster.

Unità: numero

Statistiche valide: somma

apiserver_request_total_4XX

Il numero di richieste HTTP effettuate a tutti i server API del cluster che hanno generato codici di stato 4XX (errore client).

Unità: numero

Statistiche valide: somma

apiserver_request_total_429

Il numero di richieste HTTP inviate a tutti i server API del cluster che hanno generato il codice di stato 429, che si verifica quando i client superano le soglie di limitazione della velocità.

Unità: numero

Statistiche valide: somma

apiserver_request_total_5XX

Il numero di richieste HTTP effettuate a tutti i server API del cluster che hanno generato codici di stato 5XX (errore server).

Unità: numero

Statistiche valide: somma

apiserver_request_total_LIST_PODS

Il numero di richieste Pod LIST inviate a tutti i server API del cluster.

Unità: numero

Statistiche valide: somma

apiserver_request_duration_seconds_PUT_P99

Il 99° percentile della latenza per le richieste PUT calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste PUT.

Unità: secondi

Statistiche valide: media

apiserver_request_duration_seconds_PATCH_P99

Il 99° percentile della latenza per le richieste PATCH calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste PATCH.

Unità: secondi

Statistiche valide: media

apiserver_request_duration_seconds_POST_P99

Il 99° percentile della latenza per le richieste POST calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste POST.

Unità: secondi

Statistiche valide: media

apiserver_request_duration_seconds_GET_P99

Il 99° percentile della latenza per le richieste GET calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste GET.

Unità: secondi

Statistiche valide: media

apiserver_request_duration_seconds_LIST_P99

Il 99° percentile della latenza per le richieste LIST calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste LIST.

Unità: secondi

Statistiche valide: media

apiserver_request_duration_seconds_DELETE_P99

Il 99° percentile della latenza per le richieste DELETE calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste DELETE.

Unità: secondi

Statistiche valide: media

apiserver_current_inflight_requests_MUTATING

Il numero di richieste di mutazione (POST, PUT, DELETE, PATCH) attualmente in elaborazione su tutti i server API del cluster. Questa metrica rappresenta le richieste in corso per le quali l’elaborazione non è ancora stata completata.

Unità: numero

Statistiche valide: somma

apiserver_current_inflight_requests_READONLY

Il numero di richieste di sola lettura (GET, LIST) attualmente in elaborazione su tutti i server API del cluster. Questa metrica rappresenta le richieste in corso per le quali l’elaborazione non è ancora stata completata.

Unità: numero

Statistiche valide: somma

apiserver_admission_webhook_request_total

Il numero di richieste webhook di ammissione inviate su tutti i server API nel cluster.

Unità: numero

Statistiche valide: somma

apiserver_admission_webhook_request_total_ADMIT

Il numero di richieste di mutazione webhook di ammissione inviate su tutti i server API nel cluster.

Unità: numero

Statistiche valide: somma

apiserver_admission_webhook_request_total_VALIDATING

Il numero di richieste webhook di ammissione di convalida inviate su tutti i server API nel cluster.

Unità: numero

Statistiche valide: somma

apiserver_admission_webhook_rejection_count

Il numero di richieste webhook di ammissione inviate su tutti i server API del cluster che sono state rifiutate.

Unità: numero

Statistiche valide: somma

apiserver_admission_webhook_rejection_count_ADMIT

Il numero di richieste di mutazione webhook di ammissione inviate su tutti i server API del cluster che sono state rifiutate.

Unità: numero

Statistiche valide: somma

apiserver_admission_webhook_rejection_count_VALIDATING

Il numero di richieste webhook di ammissione di convalida inviate su tutti i server API del cluster che sono state rifiutate.

Unità: numero

Statistiche valide: somma

apiserver_admission_webhook_admission_duration_seconds

Il 99° percentile della latenza per le richieste webhook di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di ammissione di terze parti.

Unità: secondi

Statistiche valide: media

apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99

Il 99° percentile della latenza per le richieste webhook di mutazione di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di mutazione di ammissione di terze parti.

Unità: secondi

Statistiche valide: media

apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99

Il 99° percentile della latenza per le richieste webhook di validazione di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di validazione di ammissione di terze parti.

Unità: secondi

Statistiche valide: media

apiserver_storage_size_bytes

La dimensione fisica in byte del file del database di storage etcd usato dai server API del cluster. Questa metrica rappresenta lo spazio su disco effettivo allocato per lo storage.

Unità: byte

Statistiche valide: massimo

Amazon CloudWatch Observability Operator

Amazon CloudWatch Observability raccoglie log, metriche e dati di tracciamento in tempo reale. e li invia ad Amazon CloudWatch e AWS X-Ray. Puoi installare questo componente aggiuntivo per abilitare sia CloudWatch Application Signals che CloudWatch Container Insights con una migliore osservabilità per Amazon EKS. In questo modo puoi monitorare lo stato e le prestazioni dell'infrastruttura e delle applicazioni containerizzate. Amazon CloudWatch Observability Operator è progettato per installare e configurare i componenti necessari.

Amazon EKS supporta CloudWatch Observability Operator come un componente aggiuntivo di Amazon EKS. Il componente aggiuntivo consente l’uso di Container Insights sui nodi di lavoro Linux e Windows nel cluster. Per abilitare Container Insights su Windows, la versione del componente aggiuntivo Amazon EKS deve essere 1.5.0 o superiore. Al momento, CloudWatch Application Signals non è supportato su Amazon EKS Windows.

Gli argomenti riportati di seguito descrivono come iniziare a utilizzare CloudWatch Observability Operator per il cluster Amazon EKS.