Come viene valutato lo stato dell'allarme quando mancano i dati Dati mancanti negli allarmi di Metrics Insights CloudWatch

Configurazione del modo in cui gli CloudWatch allarmi trattano i dati mancanti

A volte, non tutti i dati previsti per una metrica vengono segnalati. CloudWatch Questo può accadere, ad esempio, quando una connessione viene persa, un server è inattivo oppure quando un parametro comunica dati solo a intermittenza per progetto.

CloudWatch consente di specificare come trattare i punti dati mancanti durante la valutazione di un allarme. Questo può aiutare a configurare l'allarme in modo che entri nello stato ALARM solo quando richiesto per il tipo di dati monitorati. È possibile evitare falsi positivi quando i dati mancanti non indicano un problema.

Analogamente a come ogni allarme si trova sempre in uno dei tre stati, ogni punto dati specifico a cui viene segnalato CloudWatch rientra in una delle tre categorie seguenti:

Non superato (entro la soglia)
Superato (fuori dalla soglia)
Mancante

Per ogni allarme, puoi specificare di CloudWatch trattare i punti dati mancanti in uno dei seguenti modi:

notBreaching - I punti dati mancanti vengono trattati come se fossero “corretti” e all'interno della soglia
breaching - I punti dati mancanti vengono trattati come se fossero “errati” e violassero la soglia
ignore - Lo stato dell'allarme attuale viene mantenuto
missing - Se mancano tutti i punti di dati nell'intervallo di valutazione degli allarmi, l'allarme passa a INSUFFICIENT_DATA.

La scelta migliore dipende dal tipo di metrica e dallo scopo dell'allarme. Ad esempio, se si sta creando un allarme di rollback dell'applicazione utilizzando una metrica che segnala continuamente i dati mancanti, potrebbe essere consigliabile trattare i punti di dati mancanti come se violassero la regola, in quanto ciò potrebbe indicare un problema. Tuttavia, per un parametro che genera punti dati solo quando si verifica un errore, ad esempio ThrottledRequests in Amazon DynamoDB, i dati mancanti potrebbero venire trattati come notBreaching. Il comportamento predefinito è missing.

Importante

Gli allarmi configurati sulle metriche Amazon EC2 possono assumere temporaneamente lo stato INSUFFICIENT_DATA se mancano dei punti dati delle metriche. Si tratta di una circostanza rara, ma può verificarsi nel caso di un'interruzione della segnalazione delle metriche, anche quando l'istanza Amazon EC2 è integra. Per gli allarmi sulle metriche di Amazon EC2 configurati per eseguire operazioni di arresto, terminazione, riavvio o ripristino, consigliamo di configurare tali allarmi in modo che trattino i dati mancanti come missing e che questi allarmi si attivino solo nello stato ALARM.

La scelta dell'opzione migliore per il tuo allarme previene modifiche della condizione dell'allarme non necessarie e fuorvianti e indica anche in maniera più accurata la verifica del sistema.

Importante

Gli allarmi che valutano le metriche nel AWS/DynamoDB namespace ignorano per impostazione predefinita i dati mancanti. Puoi ignorarlo se scegli un'opzione diversa per il modo in cui l'allarme deve trattare i dati mancanti. Quando unAWS/DynamoDBparametro ha dati mancanti, gli allarmi che valutano quel parametro rimangono nello stato attuale.

Come viene valutato lo stato dell'allarme quando mancano i dati

Ogni volta che un allarme valuta se cambiare stato, CloudWatch tenta di recuperare un numero maggiore di punti dati rispetto al numero specificato come Periodi di valutazione. L'esatto numero di punti di dati che tenta di recuperare dipende dalla durata del periodo di allarme e se si basa su un parametro con risoluzione standard o ad alta risoluzione. L'intervallo di tempo dei punti dati che tenta di recuperare è l'intervallo di valutazione.

Nota

Questo intervallo di valutazione più ampio si applica solo agli allarmi che utilizzano una finestra di valutazione scorrevole, che è l'impostazione predefinita. Gli allarmi che utilizzano una finestra di valutazione di un orologio da parete recuperano esattamente i punti dati nella finestra allineata (periodo moltiplicato per i periodi di valutazione) e non interrogano punti dati aggiuntivi provenienti da zone più lontane. Per ulteriori informazioni, consulta Finestra di valutazione degli allarmi.

Una volta CloudWatch recuperati questi punti dati, accade quanto segue:

Se non mancano punti dati nell'intervallo di valutazione, CloudWatch valuta l'allarme in base ai punti dati più recenti raccolti. Il numero di punti dati valutato è uguale agli Evaluation Periods (Periodi di valutazione) per l'allarme. I punti dati aggiuntivi provenienti da un punto più indietro nel tempo nell'intervallo di valutazione non sono necessari e vengono ignorati.
Se mancano alcuni punti dati nell'intervallo di valutazione, ma il numero totale di punti dati esistenti che sono stati recuperati con successo dall'intervallo di valutazione è uguale o superiore ai Periodi di valutazione dell'allarme, CloudWatch valuta lo stato dell'allarme in base ai punti dati reali più recenti che sono stati recuperati con successo, inclusi i punti dati aggiuntivi necessari da più lontano nell'intervallo di valutazione. In questo caso, il valore impostato per la modalità di gestione dei dati mancanti non è necessario e verrà ignorato.
Se mancano alcuni punti dati nell'intervallo di valutazione e il numero di punti dati effettivi recuperati è inferiore al numero di periodi di valutazione dell'avviso, CloudWatch inserisce i punti dati mancanti con il risultato specificato per il trattamento dei dati mancanti, quindi valuta l'allarme. Tuttavia, tutti i punti dati reali nell'intervallo di valutazione sono inclusi nella valutazione. CloudWatch utilizza i punti dati mancanti solo il minor numero di volte possibile.

Nota

Un caso particolare di questo comportamento è che gli CloudWatch allarmi potrebbero rivalutare ripetutamente l'ultimo set di punti dati per un periodo di tempo dopo che la metrica ha smesso di scorrere. Questa rivalutazione può comportare la modifica dello stato dell'allarme e una nuova esecuzione delle operazioni, se lo stato fosse stato modificato immediatamente prima dell'arresto del flusso del parametro. Per mitigare questo comportamento, utilizzare periodi più brevi.

Le seguenti tabelle illustrano esempi del comportamento di valutazione dell'allarme. Nella prima tabella, Datapoints to Alarm e Evaluation Periods sono entrambi 3. CloudWatch recupera i 5 punti dati più recenti durante la valutazione dell'allarme, nel caso in cui manchino alcuni dei 3 punti dati più recenti. 5 è l'intervallo di valutazione dell'allarme.

Nella colonna 1 vengono visualizzati i 5 punti dati più recenti, poiché l'intervallo di valutazione è 5. Questi punti dati vengono visualizzati con il punto di dati più recente a destra. 0 è un punto di dati che non supera la soglia, X è un punto di dati che viola la soglia e - è un punto di dati mancante.

Nella colonna 2 sono mostrati quanti dei 3 punti di dati necessari risultano mancanti. Anche se vengono valutati gli ultimi 5 punti di dati, ne sono necessari solo 3 (l'impostazione di Evaluation Periods (Periodi di valutazione)) per valutare lo stato dell'allarme. Il numero di punti di dati nella colonna 2 rappresenta il numero di dati che devono essere "riempiti", utilizzando l'impostazione relativa al trattamento dei dati mancanti.

Nelle colonne 3-6, le intestazioni di colonna sono i valori possibili per come trattare i dati mancanti. Le righe di queste colonne mostrano lo stato di allarme impostato per ciascuno di questi modi possibili per trattare i dati mancanti.

Punti di dati	N di punti di dati che devono essere riempiti	MANCANTE	IGNORA	VIOLAZIONE	NON VIOLAZIONE
0 - X - X	0	`OK`	`OK`	`OK`	`OK`
- - - - 0	2	`OK`	`OK`	`OK`	`OK`
- - - - -	3	`INSUFFICIENT_DATA`	Mantieni lo stato attuale	`ALARM`	`OK`
0 X X - X	0	`ALARM`	`ALARM`	`ALARM`	`ALARM`
- - X - -	2	`ALARM`	Mantieni lo stato attuale	`ALARM`	`OK`

Nella seconda riga della tabella precedente, l'allarme rimane OK anche se i dati mancanti vengono trattati come violazione, perché il singolo punto dati esistente non sta effettuando una violazione e questo aspetto viene valutato insieme a due punti dati mancanti trattati come violazione. La prossima volta in cui questo allarme viene valutato, se i dati sono ancora mancanti si visualizzerà ALARM e il punto dati di non-violazione non rientrerà più nell'intervallo di valutazione.

La terza riga, in cui mancano tutti e cinque i punti di dati più recenti, illustra come le varie impostazioni per il trattamento dei dati mancanti influiscano sullo stato dell'allarme. Se i punti di dati mancanti sono considerati una violazione, l'allarme entra in stato ALARM, mentre se non sono considerati una violazione, l'allarme entra in stato OK. Se i punti di dati mancanti vengono ignorati, l'allarme mantiene lo stato corrente che aveva prima dei punti di dati mancanti. E se i punti di dati mancanti sono solo considerati mancanti, allora l'allarme non ha abbastanza dati reali recenti per effettuare una valutazione ed entra nello stato INSUFFICIENT_DATA.

Nella quarta riga, l'allarme entra nello stato ALARM in tutti i casi perché i tre punti di dati più recenti costituiscono una violazione, e gli Evaluation Periods (Periodi di valutazione) e i Datapoints to Alarm (Punti di dati all'allarme) sono entrambi impostati su 3. In questo caso, il punto di dati mancante viene ignorato e l'impostazione della modalità di valutazione dei dati mancanti non è necessaria, poiché sono disponibili 3 punti di dati reali da valutare.

La riga 5 rappresenta un caso speciale di valutazione dell'allarme chiamato stato di allarme prematuro. Per ulteriori informazioni, consulta la pagina Evitare transizioni premature allo stato di allarme.

Nella tabella seguente, il Period (Periodo) è di nuovo impostato su 5 minuti e Datapoints to Alarm (Punti dati all'allarme) è solo 2 mentre i Evaluation Periods (Periodi di valutazione) è 3. Questo è un 2 su 3, allarme M di N.

L'intervallo di valutazione è 5. Questo è il numero massimo di punti dati recenti che vengono recuperati e che è possibile utilizzare nel caso in cui alcuni punti dati risultino mancanti.

Punti di dati	Numero di punti di dati mancanti	MANCANTE	IGNORA	VIOLAZIONE	NON VIOLAZIONE
0 - X - X	0	`ALARM`	`ALARM`	`ALARM`	`ALARM`
0 0 X 0 X	0	`ALARM`	`ALARM`	`ALARM`	`ALARM`
0 - X - -	1	`OK`	`OK`	`ALARM`	`OK`
- - - - 0	2	`OK`	`OK`	`ALARM`	`OK`
- - - - X	2	`ALARM`	Mantieni lo stato attuale	`ALARM`	`OK`

Nelle righe 1 e 2, l'allarme passa sempre allo stato ALARM perché 2 dei 3 punti di dati più recenti stanno costituendo una violazione. Nella riga 2, i due punti di dati più vecchi nell'intervallo di valutazione non sono necessari perché non manca nessuno dei tre punti di dati più recenti, quindi questi due punti di dati meno recenti vengono ignorati.

Nelle righe 3 e 4, l'allarme passa allo stato ALARM solo se i dati mancanti vengono trattati come violazione, nel qual caso i due punti di dati mancanti più recenti vengono entrambi trattati come violazione. Nella riga 4, questi due punti di dati mancanti trattati come una violazione forniscono i due punti di dati oggetto violazione necessari per attivare lo stato ALARM.

La riga 5 rappresenta un caso speciale di valutazione dell'allarme chiamato stato di allarme prematuro. Per ulteriori informazioni, consulta la sezione seguente.

Evitare transizioni premature allo stato di allarme

CloudWatch la valutazione degli allarmi include una logica per cercare di evitare falsi allarmi, in cui l'allarme passa prematuramente allo stato ALARM quando i dati sono intermittenti. L'esempio mostrato nella riga 5 delle tabelle della sezione precedente illustra questa logica. In queste righe e negli esempi seguenti, gli Evaluation Periods (Periodi di valutazione) sono 3 e l'intervallo di valutazione è di 5 punti di dati. Datapoints to Alarm (Punti di dati all'allarme) è 3, ad eccezione dell'esempio M di N, dove Datapoints to alarm (Punti di dati all'allarme) è 2.

Supponiamo che i dati più recenti di un allarme siano - - - - X, con quattro punti di dati mancanti e quindi un punto di dati oggetto di violazione come punto di dati più recente. Poiché il punto di dati successivo potrebbe non costituire una violazione, l'allarme non entra immediatamente in stato ALARM quando i dati sono - - - - X o - - - X - e Datapoints to Alarm (Punti di dati all'allarme) è 3. In questo modo, i falsi positivi vengono evitati quando il punto di dati successivo non costituisce una violazione e fa sì che i dati siano - - - X O o - - X - O.

Tuttavia, se gli ultimi punti di dati sono - - X - -, l'allarme entra in stato ALARM anche se i punti di dati mancanti vengono trattati come mancanti. Questo perché gli allarmi sono progettati per entrare sempre nello stato ALARM quando il punto di dati oggetto di violazione meno recente disponibile durante il numero di Periodi di valutazione di punti di dati è vecchio almeno quanto il valore di Punti di dati all'allarme e tutti gli altri punti di dati più recenti costituiscono una violazione o sono mancanti. In questo caso, l'allarme entra in stato ALARM anche se il numero totale di punti di dati disponibili è inferiore a M (Datapoints to Alarm (Punti di dati all'allarme)).

Questa logica di allarme si applica anche a M allarmi su N. Se il punto di dati oggetto di violazione meno recente durante l'intervallo di valutazione è vecchio almeno quanto il valore di Datapoints to Alarm (Punti di dati all'allarme) e tutti i punti di dati più recenti costituiscono una violazione o sono mancanti, l'allarme entra in stato ALARM indipendentemente dal valore di M (Datapoints to Alarm (Punti di dati all'allarme)).

Dati mancanti negli allarmi di Metrics Insights CloudWatch

Allarmi basati su query di Metrics Insights che si aggregano in un'unica serie temporale

Gli scenari di dati mancanti e i loro effetti sulla valutazione degli allarmi sono gli stessi di un allarme metrico standard in termini di trattamento configurato dei dati mancanti. Per informazioni, consultare Configurazione del modo in cui gli CloudWatch allarmi trattano i dati mancanti.

Allarmi basati su interrogazioni di Metrics Insights che producono più serie temporali

Gli scenari relativi ai dati mancanti per gli allarmi di Metrics Insights si verificano quando:

I singoli punti dati all'interno di una serie temporale non sono presenti.
Una o più serie temporali scompaiono quando si valuta su più serie temporali.
L'interrogazione non recupera alcuna serie temporale.

Gli scenari di dati mancanti influiscono sulla valutazione degli allarmi nel modo seguente:

Per la valutazione di una serie temporale, il trattamento dei dati mancanti viene applicato ai singoli punti dati all'interno della serie temporale. Ad esempio, se vengono interrogati 3 punti dati per le serie temporali ma ne viene ricevuto solo 1, 2 punti dati seguirebbero la configurazione dei dati mancanti configurata.
Se una serie temporale non viene più recuperata dalla query, passerà al trattamento dei dati mancanti indipendentemente dal trattamento. OK Le azioni di allarme associate alla OK transizione a livello di contributore vengono eseguite e viene StateReason specificato che il suddetto collaboratore non è stato trovato con il messaggio «Nessun dato è stato restituito per questo collaboratore». Lo stato dell'allarme dipenderà dallo stato degli altri contributori che sono stati recuperati dalla query.
A livello di allarme, se la query restituisce un risultato vuoto (nessuna serie temporale), viene applicato il trattamento dei dati mancanti. Ad esempio, se il trattamento dei dati mancanti è stato impostato comeBREACHING, l'allarme passerà aALARM.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Finestra di valutazione degli allarmi

Come vengono gestiti i dati parziali