Contribuisci a migliorare questa pagina
Per contribuire a questa guida per l’utente, seleziona il link Edit this page on GitHub che si trova nel riquadro destro di ogni pagina.
Monitorare i dati dei cluster con Amazon CloudWatch
Amazon CloudWatch è un servizio di monitoraggio che raccoglie le metriche e i log dalle tue risorse cloud. CloudWatch fornisce gratuitamente alcune metriche di base di Amazon EKS quando si usa un nuovo cluster della versione 1.28 o superiore. Tuttavia, quando si usa CloudWatch Observability Operator come componente aggiuntivo di Amazon EKS, si possono ottenere funzionalità di osservabilità avanzate.
Metriche di base in Amazon CloudWatch
Per i cluster con versione Kubernetes 1.28 e successive, puoi ottenere gratuitamente le metriche fornite da CloudWatch nel namespace AWS/EKS. La seguente tabella fornisce un elenco delle metriche di base disponibili per le versioni supportate. Ogni metrica presente nell’elenco ha una frequenza di un minuto.
| Nome parametro | Descrizione |
|---|---|
|
|
Il numero totale di tentativi da parte pianificatore di pianificare i pod nel cluster per un determinato periodo. Questa metrica aiuta a monitorare il carico di lavoro del pianificatore e può indicare la pressione della pianificazione o potenziali problemi con il posizionamento dei pod. Unità: numero Statistiche valide: somma |
|
|
Il numero di tentativi riusciti da parte pianificatore di pianificare i pod sui nodi nel cluster per un determinato periodo. Unità: numero Statistiche valide: somma |
|
|
Il numero di tentativi di pianificazione dei pod che non è stato possibile pianificare per un determinato periodo a causa di vincoli validi, quali CPU o memoria insufficienti su un nodo. Unità: numero Statistiche valide: somma |
|
|
Il numero di tentativi di pianificazione dei pod che non sono riusciti in un determinato periodo a causa di un problema interno del pianificatore stesso, ad esempio problemi di connettività del server API. Unità: numero Statistiche valide: somma |
|
|
Il numero totale di pod in sospeso che il pianificatore del cluster deve pianificare per un determinato periodo. Unità: numero Statistiche valide: somma |
|
|
Il numero di pod in sospeso in ActiveQ che attendono di essere pianificati nel cluster in un determinato periodo. Unità: numero Statistiche valide: somma |
|
|
Il numero di pod in sospeso che il pianificatore ha tentato di pianificare senza successo e che vengono mantenuti in uno stato non pianificabile per un nuovo tentativo. Unità: numero Statistiche valide: somma |
|
|
Il numero di Pod in sospeso in Unità: numero Statistiche valide: somma |
|
|
Il numero di pod in sospeso che sono attualmente in attesa in uno stato chiuso, in quanto non possono essere pianificati finché non soddisfano le condizioni richieste. Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste HTTP inviate su tutti i server API del cluster. Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste HTTP effettuate a tutti i server API del cluster che hanno generato codici di stato Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste HTTP inviate a tutti i server API del cluster che hanno generato il codice di stato Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste HTTP effettuate a tutti i server API del cluster che hanno generato codici di stato Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste Pod Unità: numero Statistiche valide: somma |
|
|
Il 99° percentile della latenza per le richieste Unità: secondi Statistiche valide: media |
|
|
Il 99° percentile della latenza per le richieste Unità: secondi Statistiche valide: media |
|
|
Il 99° percentile della latenza per le richieste Unità: secondi Statistiche valide: media |
|
|
Il 99° percentile della latenza per le richieste Unità: secondi Statistiche valide: media |
|
|
Il 99° percentile della latenza per le richieste Unità: secondi Statistiche valide: media |
|
|
Il 99° percentile della latenza per le richieste Unità: secondi Statistiche valide: media |
|
|
Il numero di richieste di mutazione ( Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste di sola lettura ( Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste webhook di ammissione inviate su tutti i server API nel cluster. Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste di mutazione webhook di ammissione inviate su tutti i server API nel cluster. Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste webhook di ammissione di convalida inviate su tutti i server API nel cluster. Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste webhook di ammissione inviate su tutti i server API del cluster che sono state rifiutate. Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste di mutazione webhook di ammissione inviate su tutti i server API del cluster che sono state rifiutate. Unità: numero Statistiche valide: somma |
|
|
Il numero di richieste webhook di ammissione di convalida inviate su tutti i server API del cluster che sono state rifiutate. Unità: numero Statistiche valide: somma |
|
|
Il 99° percentile della latenza per le richieste webhook di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di ammissione di terze parti. Unità: secondi Statistiche valide: media |
|
|
Il 99° percentile della latenza per le richieste webhook di mutazione di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di mutazione di ammissione di terze parti. Unità: secondi Statistiche valide: media |
|
|
Il 99° percentile della latenza per le richieste webhook di validazione di ammissione di terze parti calcolato sulla base di tutte le richieste su tutti i server API nel cluster. Rappresenta il tempo di risposta al di sotto del quale viene completato il 99% di tutte le richieste webhook di validazione di ammissione di terze parti. Unità: secondi Statistiche valide: media |
|
|
La dimensione fisica in byte del file del database di storage etcd usato dai server API del cluster. Questa metrica rappresenta lo spazio su disco effettivo allocato per lo storage. Unità: byte Statistiche valide: massimo |
Amazon CloudWatch Observability Operator
Amazon CloudWatch Observability raccoglie log, metriche e dati di tracciamento in tempo reale. e li invia ad Amazon CloudWatch e AWS X-Ray. Puoi installare questo componente aggiuntivo per abilitare sia CloudWatch Application Signals che CloudWatch Container Insights con una migliore osservabilità per Amazon EKS. In questo modo puoi monitorare lo stato e le prestazioni dell'infrastruttura e delle applicazioni containerizzate. Amazon CloudWatch Observability Operator è progettato per installare e configurare i componenti necessari.
Amazon EKS supporta CloudWatch Observability Operator come un componente aggiuntivo di Amazon EKS. Il componente aggiuntivo consente l’uso di Container Insights sui nodi di lavoro Linux e Windows nel cluster. Per abilitare Container Insights su Windows, la versione del componente aggiuntivo Amazon EKS deve essere 1.5.0 o superiore. Al momento, CloudWatch Application Signals non è supportato su Amazon EKS Windows.
Gli argomenti riportati di seguito descrivono come iniziare a utilizzare CloudWatch Observability Operator per il cluster Amazon EKS.
-
Per istruzioni sull’installazione di questo componente aggiuntivo, consulta Install the CloudWatch agent with the Amazon CloudWatch Observability EKS add-on or the Helm chart nella Guida per l’utente di Amazon CloudWatch.
-
Per ulteriori informazioni su CloudWatch Application Signals, consulta Application Signals nella Guida per l’utente di Amazon CloudWatch.
-
Per ulteriori informazioni su Container Insights, consulta Utilizzo di Container Insights nella Guida per l'utente di Amazon CloudWatch.