Metriche di base in Amazon CloudWatch Operatore di CloudWatch osservabilità di Amazon

Contribuisci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitora i dati del cluster con Amazon CloudWatch

Amazon CloudWatch è un servizio di monitoraggio che raccoglie metriche e log dalle tue risorse cloud. CloudWatch fornisce gratuitamente alcuni parametri di base di Amazon EKS quando si utilizza un nuovo cluster di versione 1.28 o superiore. Tuttavia, quando si utilizza CloudWatch Observability Operator come componente aggiuntivo di Amazon EKS, è possibile ottenere funzionalità di osservabilità avanzate.

Metriche di base in Amazon CloudWatch

Per i cluster con versione Kubernetes 1.28 e successive, ottieni metriche CloudWatch vendute gratuitamente nel namespace. AWS/EKS La seguente tabella fornisce un elenco delle metriche di base disponibili per le versioni supportate. Ogni metrica presente nell’elenco ha una frequenza di un minuto.

Nome parametro	Description
`apiserver_flowcontrol_current_executing_seats`	Il numero di postazioni attualmente in uso per l'esecuzione delle richieste API. L'allocazione dei posti è determinata dalla configurazione priority_level e flow_schema nella funzionalità Priority and Fairness dell'API Kubernetes. Unità: numero Statistiche valide: max
`scheduler_schedule_attempts_total`	Il numero totale di tentativi da parte pianificatore di pianificare i pod nel cluster per un determinato periodo. Questa metrica aiuta a monitorare il carico di lavoro del pianificatore e può indicare la pressione della pianificazione o potenziali problemi con il posizionamento dei pod. Unità: numero Statistiche valide: somma
`scheduler_schedule_attempts_SCHEDULED`	Il numero di tentativi riusciti da parte pianificatore di pianificare i pod sui nodi nel cluster per un determinato periodo. Unità: numero Statistiche valide: somma
`scheduler_schedule_attempts_UNSCHEDULABLE`	Il numero di tentativi di pianificazione dei pod che non è stato possibile pianificare per un determinato periodo a causa di vincoli validi, quali CPU o memoria insufficienti su un nodo. Unità: numero Statistiche valide: somma
`scheduler_schedule_attempts_ERROR`	Il numero di tentativi di pianificazione dei pod che non sono riusciti in un determinato periodo a causa di un problema interno del pianificatore stesso, ad esempio problemi di connettività del server API. Unità: numero Statistiche valide: somma
`scheduler_pending_pods`	Il numero totale di pod in sospeso che il pianificatore del cluster deve pianificare per un determinato periodo. Unità: numero Statistiche valide: somma
`scheduler_pending_pods_ACTIVEQ`	Il numero di pod in sospeso in ActiveQ che attendono di essere pianificati nel cluster in un determinato periodo. Unità: numero Statistiche valide: somma
`scheduler_pending_pods_UNSCHEDULABLE`	Il numero di pod in sospeso che il pianificatore ha tentato di pianificare senza successo e che vengono mantenuti in uno stato non pianificabile per un nuovo tentativo. Unità: numero Statistiche valide: somma
`scheduler_pending_pods_BACKOFF`	Il numero di Pod in sospeso in `backoffQ` in uno stato di backoff che sono in attesa della scadenza del periodo di backoff. Unità: numero Statistiche valide: somma
`scheduler_pending_pods_GATED`	Il numero di pod in sospeso che sono attualmente in attesa in uno stato chiuso, in quanto non possono essere pianificati finché non soddisfano le condizioni richieste. Unità: numero Statistiche valide: somma
`apiserver_request_total`	Il numero di richieste HTTP inviate su tutti i server API del cluster. Unità: numero Statistiche valide: somma
`apiserver_request_total_4XX`	Il numero di richieste HTTP effettuate a tutti i server API del cluster che hanno generato codici di stato `4XX` (errore client). Unità: numero Statistiche valide: somma
`apiserver_request_total_429`	Il numero di richieste HTTP inviate a tutti i server API del cluster che hanno generato il codice di stato `429`, che si verifica quando i client superano le soglie di limitazione della velocità. Unità: numero Statistiche valide: somma
`apiserver_request_total_5XX`	Il numero di richieste HTTP effettuate a tutti i server API del cluster che hanno generato codici di stato `5XX` (errore server). Unità: numero Statistiche valide: somma
`apiserver_request_total_LIST_PODS`	Il numero di richieste Pod `LIST` inviate a tutti i server API del cluster. Unità: numero Statistiche valide: somma
`apiserver_request_duration_seconds_PUT_P99`	Il 99° percentile della latenza per le richieste `PUT` calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste `PUT`. Unità: secondi Statistiche valide: media
`apiserver_request_duration_seconds_PATCH_P99`	Il 99° percentile della latenza per le richieste `PATCH` calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste `PATCH`. Unità: secondi Statistiche valide: media
`apiserver_request_duration_seconds_POST_P99`	Il 99° percentile della latenza per le richieste `POST` calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste `POST`. Unità: secondi Statistiche valide: media
`apiserver_request_duration_seconds_GET_P99`	Il 99° percentile della latenza per le richieste `GET` calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste `GET`. Unità: secondi Statistiche valide: media
`apiserver_request_duration_seconds_LIST_P99`	Il 99° percentile della latenza per le richieste `LIST` calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste `LIST`. Unità: secondi Statistiche valide: media
`apiserver_request_duration_seconds_DELETE_P99`	Il 99° percentile della latenza per le richieste `DELETE` calcolato da tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste `DELETE`. Unità: secondi Statistiche valide: media
`apiserver_current_inflight_requests_MUTATING`	Il numero di richieste di mutazione (`POST`, `PUT`, `DELETE`, `PATCH`) attualmente in elaborazione su tutti i server API del cluster. Questa metrica rappresenta le richieste in corso per le quali l’elaborazione non è ancora stata completata. Unità: numero Statistiche valide: somma
`apiserver_current_inflight_requests_READONLY`	Il numero di richieste di sola lettura (`GET`, `LIST`) attualmente in elaborazione su tutti i server API del cluster. Questa metrica rappresenta le richieste in corso per le quali l’elaborazione non è ancora stata completata. Unità: numero Statistiche valide: somma
`apiserver_admission_webhook_request_total`	Il numero di richieste webhook di ammissione inviate su tutti i server API nel cluster. Unità: numero Statistiche valide: somma
`apiserver_admission_webhook_request_total_ADMIT`	Il numero di richieste di mutazione webhook di ammissione inviate su tutti i server API nel cluster. Unità: numero Statistiche valide: somma
`apiserver_admission_webhook_request_total_VALIDATING`	Il numero di richieste webhook di ammissione di convalida inviate su tutti i server API nel cluster. Unità: numero Statistiche valide: somma
`apiserver_admission_webhook_rejection_count`	Il numero di richieste webhook di ammissione inviate su tutti i server API del cluster che sono state rifiutate. Unità: numero Statistiche valide: somma
`apiserver_admission_webhook_rejection_count_ADMIT`	Il numero di richieste di mutazione webhook di ammissione inviate su tutti i server API del cluster che sono state rifiutate. Unità: numero Statistiche valide: somma
`apiserver_admission_webhook_rejection_count_VALIDATING`	Il numero di richieste webhook di ammissione di convalida inviate su tutti i server API del cluster che sono state rifiutate. Unità: numero Statistiche valide: somma
`apiserver_admission_webhook_admission_duration_seconds`	Il 99° percentile della latenza per le richieste webhook di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di ammissione di terze parti. Unità: secondi Statistiche valide: media
`apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99`	Il 99° percentile della latenza per le richieste webhook di mutazione di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di mutazione di ammissione di terze parti. Unità: secondi Statistiche valide: media
`apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99`	Il 99° percentile della latenza per le richieste webhook di validazione di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di validazione di ammissione di terze parti. Unità: secondi Statistiche valide: media
`apiserver_storage_size_bytes`	La dimensione fisica in byte del file del database di storage etcd usato dai server API del cluster. Questa metrica rappresenta lo spazio su disco effettivo allocato per lo storage. Unità: byte Statistiche valide: massimo

Operatore di CloudWatch osservabilità di Amazon

Amazon CloudWatch Observability raccoglie log, parametri e dati di tracciamento in tempo reale. Li invia ad Amazon CloudWatch e AWS X-Ray. Puoi installare questo componente aggiuntivo per abilitare sia CloudWatch Application Signals che CloudWatch Container Insights con una migliore osservabilità per Amazon EKS. In questo modo puoi monitorare lo stato e le prestazioni dell'infrastruttura e delle applicazioni containerizzate. Amazon CloudWatch Observability Operator è progettato per installare e configurare i componenti necessari.

Amazon EKS supporta CloudWatch Observability Operator come componente aggiuntivo di Amazon EKS. Il componente aggiuntivo consente l’uso di Container Insights sui nodi di lavoro Linux e Windows nel cluster. Per abilitare Container Insights su Windows, la versione del componente aggiuntivo Amazon EKS deve essere 1.5.0 o superiore. Attualmente, CloudWatch Application Signals non è supportato su Amazon EKS Windows.

Gli argomenti seguenti descrivono come iniziare a utilizzare CloudWatch Observability Operator per il tuo cluster Amazon EKS.

Per istruzioni sull'installazione di questo componente aggiuntivo, consulta Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm nella Amazon User Guide. CloudWatch
Per ulteriori informazioni su CloudWatch Application Signals, consulta Application Signals nella Amazon CloudWatch User Guide.
Per ulteriori informazioni su Container Insights, consulta Using Container Insights nella Amazon CloudWatch User Guide.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Piano di controllo (control-plane)

Registrazione dei log del piano di controllo (control-plane)