Best practice generali CloudWatch Allarmi consigliati

Best practice per Amazon OpenSearch Ingestion

In questo argomento sono riportate alcune best practice per la creazione e la gestione delle pipeline Amazon OpenSearch Ingestion e vengono fornite linee guida generali che si applicano a molti casi d'uso. Ogni carico di lavoro è unico, con caratteristiche uniche, quindi nessun suggerimento generico è adatto per ogni caso d'uso.

Best practice generali

Le seguenti best practice generali si applicano alla creazione e alla gestione di pipeline.

Per garantire un'elevata disponibilità, configura le pipeline VPC con due o tre sottoreti. Se distribuisci una pipeline solo in una sottorete e la zona di disponibilità non funziona, non sarai in grado di importare dati.
All'interno di ogni pipeline, consigliamo di limitare il numero di sotto-pipeline a 5 o meno.
Se utilizzi il plug-in sorgente S3, utilizza file S3 di dimensioni uniformi per prestazioni ottimali.
Se utilizzi il plug-in sorgente S3, aggiungi 30 secondi di timeout di visibilità aggiuntivo per ogni 0,25 GB di dimensione del file nel bucket S3 per prestazioni ottimali.
Includi una dead-letter queue (DLQ) nella configurazione della pipeline in modo da poter scaricare gli eventi non riusciti e renderli accessibili per l'analisi. Se i tuoi sink rifiutano i dati a causa di mappature errate o altri problemi, puoi indirizzare i dati al DLQ per risolvere il problema e risolverlo.

CloudWatch Allarmi consigliati

CloudWatch gli allarmi eseguono un'operazione quando una CloudWatch metrica supera un valore specificato per un certo periodo di tempo. Ad esempio, potresti voler AWS inviarti un'e-mail se lo stato di salute del cluster dura più red di un minuto. In questa sezione sono riportati alcuni allarmi consigliati per Amazon OpenSearch Ingestion e le indicazioni su come rispondere a tali allarmi.

Per ulteriori informazioni sulla configurazione degli allarmi, consulta Creating Amazon CloudWatch Alarms nella Amazon CloudWatch User Guide.

Allarme	Problema
`computeUnits`il massimo è = quello configurato `maxUnits` per 15 minuti, 3 volte consecutive	La pipeline ha raggiunto la capacità massima e potrebbe richiedere un `maxUnits` aggiornamento. Incremento della capacità massima della pipeline
`opensearch.documentErrors.count`sum è = `{sub_pipeline_name}.opensearch.recordsIn.count` somma per 1 minuto, 1 periodo di tempo consecutivo	La pipeline non è in grado di scrivere nel OpenSearch sink. Controlla le autorizzazioni della pipeline e conferma che il dominio o la raccolta siano integri. Puoi anche controllare la presenza di eventi non riusciti nella coda delle lettere morte (DLQ), se è configurata.
`bulkRequestLatency.max`max è >= x per 1 minuto, 1 periodo di tempo consecutivo	La pipeline presenta un'elevata latenza nell'invio dei dati al sink. OpenSearch Ciò è probabilmente dovuto al fatto che il sink è sottodimensionato o a una strategia di sharding inadeguata, che sta facendo sì che il sink rimanga indietro. Una latenza elevata e sostenuta può influire sulle prestazioni della pipeline e probabilmente portare a una contropressione sui client.
`httpAuthFailure.count`somma >= 1 per 1 minuto, 1 volta consecutiva	Le richieste di ingestione non vengono autenticate. Verifica che l'autenticazione Signature Version 4 sia abilitata correttamente per tutti i client.
`system.cpu.usage.value`medio >= 80% per 15 minuti, 3 periodi di tempo consecutivi	Un utilizzo elevato e prolungato della CPU può essere problematico. Valuta la possibilità di aumentare la capacità massima della pipeline.
`bufferUsage.value`medio >= 80% per 15 minuti, 3 periodi di tempo consecutivi	Un utilizzo prolungato e elevato del buffer può essere problematico. Valuta la possibilità di aumentare la capacità massima della pipeline.

Altri allarmi che potresti prendere in considerazione

Considera la configurazione dei seguenti allarmi a seconda delle funzionalità di Amazon OpenSearch Ingestion utilizzate regolarmente.

Allarme	Problema
`dynamodb.exportJobFailure.count`somma 1	Tentativo di attivazione dell'esportazione ad Amazon S3 non è riuscito.
`opensearch.EndtoEndLatency.avg`media > X per 15 minuti, 4 volte consecutive	`EndtoEndLatency`È superiore a quello desiderato per la lettura da flussi DynamoDB. Ciò potrebbe essere causato da un OpenSearch cluster sottodimensionato o da una capacità OCU massima della pipeline troppo bassa per il throughput WCU sulla tabella DynamoDB. `EndtoEndLatency`sarà più alto dopo un'esportazione, ma dovrebbe diminuire nel tempo man mano che raggiunge gli ultimi stream DynamoDB.
`dynamodb.changeEventsProcessed.count`somma == 0 per X minuti	Nessun record viene raccolto dai flussi DynamoDB. Ciò potrebbe essere causato dall'assenza di attività sulla tabella o da un problema di accesso ai flussi DynamoDB.
`opensearch.s3.dlqS3RecordsSuccess.count`somma >= `opensearch.documentSuccess.count` somma per 1 minuto, 1 periodo di tempo consecutivo	Al DLQ viene inviato un numero maggiore di record rispetto al OpenSearch sink. Esamina le metriche del plug-in OpenSearch sink per indagare e determinare la causa principale.
`grok.grokProcessingTimeouts.count`sum = Recordsin.count somma per 1 minuto, 5 periodi di tempo consecutivi	Il timeout di tutti i dati si verifica mentre il processore Grok tenta di creare una corrispondenza tra i modelli. È probabile che ciò influisca sulle prestazioni e rallenti la pipeline. Valuta la possibilità di modificare i tuoi schemi per ridurre i timeout.
`grok.grokProcessingErrors.count`somma è >= 1 per 1 minuto, 1 volta consecutiva	Il processore Grok non riesce ad abbinare i modelli ai dati nella pipeline, con conseguenti errori. Rivedi i dati e le configurazioni del plug-in Grok per assicurarti che sia prevista la corrispondenza dei modelli.
`grok.grokProcessingMismatch.count`sum = Recordsin.count somma per 1 minuto, 5 periodi di tempo consecutivi	Il processore Grok non è in grado di abbinare i modelli ai dati nella pipeline. Rivedi i dati e le configurazioni del plug-in Grok per assicurarti che sia prevista la corrispondenza dei modelli.
`date.dateProcessingMatchFailure.count`sum = RecordsIn.count = somma per 1 minuto, 5 volte consecutive	Il processore Date non è in grado di abbinare alcun modello ai dati nella pipeline. Controlla le configurazioni dei dati e del plug-in Date per assicurarti che il modello sia previsto.
`s3.s3ObjectsFailed.count`somma >= 1 per 1 minuto, 1 volta consecutiva	Questo problema si verifica perché l'oggetto S3 non esiste o la pipeline non dispone di privilegi sufficienti. Esamina le `s3ObjectsAccessDenied.count` metriche `s3ObjectsNotFound.count` and per determinare la causa principale. Verifica che l'oggetto S3 esista e/o aggiorna le autorizzazioni.
`s3.sqsMessagesFailed.count`somma >= 1 per 1 minuto, 1 volta consecutiva	Il plug-in S3 non è riuscito a elaborare un messaggio Amazon SQS. Se hai un DLQ abilitato sulla coda SQS, esamina il messaggio di errore. La coda potrebbe ricevere dati non validi che la pipeline sta tentando di elaborare.
`http.badRequests.count`somma >= 1 per 1 minuto, 1 volta consecutiva	Il client sta inviando una richiesta errata. Verifica che tutti i client stiano inviando il payload corretto.
`http.requestsTooLarge.count`somma >= 1 per 1 minuto, 1 volta consecutiva	Le richieste provenienti dal plugin sorgente HTTP contengono troppi dati, il che supera la capacità del buffer. Regola la dimensione del batch per i tuoi clienti.
`http.internalServerError.count`somma >= 0 per 1 minuto, 1 periodo di tempo consecutivo	Il plugin di origine HTTP non riesce a ricevere gli eventi.
`http.requestTimeouts.count`somma >= 0 per 1 minuto, 1 periodo di tempo consecutivo	I timeout di origine sono probabilmente il risultato di un approvvigionamento insufficiente della pipeline. Valuta la possibilità di aumentare la pipeline `maxUnits` per gestire un carico di lavoro aggiuntivo.
`otel_trace.badRequests.count`somma >= 1 per 1 minuto, 1 volta consecutiva	Il client sta inviando una richiesta errata. Verifica che tutti i client stiano inviando il payload corretto.
`otel_trace.requestsTooLarge.count`somma >= 1 per 1 minuto, 1 volta consecutiva	Le richieste provenienti dal plugin sorgente di Otel Trace contengono troppi dati, il che supera la capacità del buffer. Regola la dimensione del batch per i tuoi clienti.
`otel_trace.internalServerError.count`somma >= 0 per 1 minuto, 1 periodo di tempo consecutivo	Il plugin sorgente di Otel Trace non riesce a ricevere gli eventi.
`otel_trace.requestTimeouts.count`somma >= 0 per 1 minuto, 1 periodo di tempo consecutivo	I timeout di origine sono probabilmente il risultato di un approvvigionamento insufficiente della pipeline. Valuta la possibilità di aumentare la pipeline `maxUnits` per gestire un carico di lavoro aggiuntivo.
`otel_metrics.requestTimeouts.count`somma >= 0 per 1 minuto, 1 periodo di tempo consecutivo	I timeout di origine sono probabilmente il risultato di un approvvigionamento insufficiente della pipeline. Valuta la possibilità di aumentare la pipeline `maxUnits` per gestire un carico di lavoro aggiuntivo.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Monitoraggio delle metriche della pipeline

Amazon OpenSearch Serverless