Memecahkan masalah manajer peringatan dengan Log CloudWatch - Layanan Terkelola Amazon untuk Prometheus

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memecahkan masalah manajer peringatan dengan Log CloudWatch

Dengan menggunakanPantau Layanan Terkelola Amazon untuk acara Prometheus dengan Log CloudWatch , Anda dapat memecahkan masalah terkait Pengelola Peringatan dan Penggaris. Bagian ini berisi topik pemecahan masalah terkait Alert Manager.

Peringatan peringatan aktif

Ketika log berisi peringatan berikut

{ "workspaceId": "ws-efdc5b42-b051-11ec-b123-4567ac120002", "message": { "log": "too many alerts, limit: 1000", "level": "WARN" }, "component": "alertmanager" }

Ini berarti bahwa kuota peringatan Aktif manajer Peringatan terlampaui.

Tindakan yang harus diambil

Minta peningkatan kuota. Masuk ke AWS Management Console dan buka konsol Service Quotas di. https://console.aws.amazon.com/servicequotas/

Peringatan ukuran grup agregasi peringatan

Ketika log berisi peringatan berikut

{ "workspaceId": "ws-efdc5b42-b051-11ec-b123-4567ac120002", "message": { "log": "Too many aggregation groups, cannot create new group for alert, groups=1000, limit=1000, alert=sample-alert", "level": "WARN" }, "component": "alertmanager" }

Ini berarti bahwa kuota ukuran grup agregasi Alert manager Alert telah terlampaui.

Tindakan yang harus diambil

Kurangi ukuran grup agregasi Alert dengan menggunakan group_by parameter. Untuk informasi selengkapnya, lihat Pengaturan terkait rute di dokumentasi Prometheus.

Anda juga dapat meminta peningkatan kuota. Masuk ke AWS Management Console dan buka konsol Service Quotas di. https://console.aws.amazon.com/servicequotas/

Ukuran peringatan peringatan terlalu besar

Ketika log berisi peringatan berikut

{ "workspaceId": "ws-efdc5b42-b051-11ec-b123-4567ac120002", "message": { "log": "alerts too big, total size limit: 20000000 bytes", "level": "WARN" }, "component": "alertmanager" }

Ini berarti bahwa Alert manager Alerts per ruang kerja, dalam ukuran kuota telah terlampaui.

Tindakan yang harus diambil

Hapus anotasi dan label yang tidak perlu untuk mengurangi ukuran peringatan.

Peringatan konten kosong

Ketika log berisi peringatan berikut

{ "workspaceId": "ws-abcd1234-ef56-78ab-cd90-1234abcd0000", "message": { "log": "Message has been modified because the content was empty." "level": "WARN" }, "component": "alertmanager" }

Ini berarti bahwa template manajer Alert menyelesaikan peringatan keluar ke pesan kosong.

Tindakan yang harus diambil

Validasi template manajer Alert Anda dan pastikan bahwa Anda memiliki template yang valid untuk semua jalur penerima.

Peringatan tidak valid key/value

Ketika log berisi peringatan berikut

{ "workspaceId": "ws-abcd1234-ef56-78ab-cd90-1234abcd0000", "message": { "log": "MessageAttributes has been removed because of invalid key/value, numberOfRemovedAttributes=1" "level": "WARN" }, "component": "alertmanager" }

Ini berarti bahwa beberapa atribut pesan telah dihapus keys/values karena tidak valid.

Tindakan yang harus diambil

Evaluasi ulang template yang Anda gunakan untuk mengisi atribut pesan, dan pastikan itu menyelesaikan atribut pesan SNS yang valid. Untuk informasi selengkapnya tentang memvalidasi pesan ke topik Amazon SNS, lihat Memvalidasi topik SNS

Peringatan batas pesan

Ketika log berisi peringatan berikut

{ "workspaceId": "ws-abcd1234-ef56-78ab-cd90-1234abcd0000", "message": { "log": "Message has been truncated because it exceeds size limit, originSize=266K, truncatedSize=12K" "level": "WARN" }, "component": "alertmanager" }

Ini berarti bahwa beberapa ukuran pesan terlalu besar.

Tindakan yang harus diambil

Lihatlah template pesan penerima Peringatan dan kerjakan ulang agar sesuai dengan batas ukuran.

Tidak ada kesalahan kebijakan berbasis sumber daya

Ketika log berisi kesalahan berikut

{ "workspaceId": "ws-abcd1234-ef56-78ab-cd90-1234abcd0000", "message": { "log": "Notify for alerts failed, AMP is not authorized to perform: SNS:Publish on resource: arn:aws:sns:us-west-2:12345:testSnsReceiver because no resource-based policy allows the SNS:Publish action" "level": "ERROR" }, "component": "alertmanager" }

Ini berarti bahwa Amazon Managed Service untuk Prometheus tidak memiliki izin untuk mengirimkan peringatan ke topik SNS yang ditentukan.

Tindakan yang harus diambil

Validasi bahwa kebijakan akses pada topik Amazon SNS Anda memberi Layanan Terkelola Amazon untuk Prometheus kemampuan untuk mengirim pesan SNS ke topik tersebut. Buat Kebijakan Akses SNS yang memberikan layanan aps.amazonaws.com (Amazon Managed Service for Prometheus) akses ke topik Amazon SNS Anda. Untuk informasi selengkapnya tentang Kebijakan Akses SNS, lihat Menggunakan Bahasa Kebijakan Akses dan Contoh kasus untuk kontrol akses Amazon SNS di Panduan Pengembang Layanan Pemberitahuan Sederhana Amazon.

Peringatan non ASCII

Ketika log berisi peringatan berikut

{ "workspaceId": "ws-abcd1234-ef56-78ab-cd90-1234abcd0000", "message": { "log": "Subject has been modified because it contains control or non-ASCII characters." "level": "WARN" }, "component": "alertmanager" }

Ini berarti bahwa subjek memiliki karakter non-ASCII.

Tindakan yang harus diambil

Hapus referensi di bidang subjek template Anda ke label yang mungkin berisi karakter non-ASCII.

Tidak berwenang untuk menelepon KMS

Ketika log berisi AWS KMS kesalahan berikut

{ "workspaceId": "ws-abcd1234-ef56-78ab-cd90-1234abcd0000", "message": { "log": "Notify for alerts failed, AMP is not authorized to call KMS", "level": "ERROR" }, "component": "alertmanager" }

Tindakan yang harus diambil

Validasi bahwa kebijakan kunci kunci yang digunakan untuk mengenkripsi topik Amazon SNS memungkinkan layanan Amazon Managed Service for Prometheus service principal untuk melakukan tindakan berikut:, dan. aps.amazonaws.com kms:GenerateDataKey* kms:Decrypt Untuk informasi selengkapnya, lihat Izin AWS KMS untuk Topik SNS.

Kesalahan template

Ketika log berisi kesalahan berikut

{ "workspaceId": "ws-efdc5b42-b051-11ec-b123-4567ac120002", "message": { "log": "Notify for alerts failed. There is an error in a receiver that is using templates in the AlertManager definition. Make sure that the syntax is correct and only template functions and variables that exist are used in the receiver 'default', sns_configs position #2, section 'attributes'" "level": "ERROR" }, "component": "alertmanager" }

Ini berarti bahwa ada kesalahan dalam template yang digunakan dalam AlertManager definisi. Entri kesalahan berisi petunjuk tentang penerima apa, posisi di sns_configs dan properti yang berisi kesalahan.

Tindakan yang harus diambil

Validasi definisi Alert Manager Anda. Pastikan sintaksnya benar dan Anda mereferensikan variabel template dan fungsi yang ada. Untuk informasi selengkapnya, lihat Referensi Template Pemberitahuan di dokumentasi sumber terbuka Prometheus.