Praktik terbaik untuk peringatan di Amazon EKS

Bagian ini menjelaskan praktik terbaik untuk membuat sistem peringatan yang kuat yang meningkatkan keandalan dan kinerja aplikasi berbasis Kubernetes Anda di Amazon EKS.

Tentukan ambang batas peringatan yang jelas:

Tetapkan ambang batas yang berarti berdasarkan data historis dan persyaratan bisnis.
Gunakan ambang dinamis jika sesuai untuk memperhitungkan beban kerja yang bervariasi.

Menerapkan prioritas peringatan:

Kategorikan peringatan berdasarkan tingkat keparahan (misalnya, kritis, tinggi, sedang, rendah).
Sejajarkan prioritas peringatan dengan dampak bisnis.

Hindari kelelahan waspada:

Kurangi kebisingan dengan menghilangkan peringatan berlebihan atau bernilai rendah.
Korelasikan peringatan dengan masalah terkait grup.

Gunakan peringatan multi-tahap:

Terapkan ambang peringatan sebelum level kritis tercapai.
Gunakan saluran notifikasi yang berbeda untuk tingkat keparahan peringatan yang berbeda.

Menerapkan perutean peringatan yang tepat:

Pastikan peringatan dikirim ke tim atau individu yang tepat.
Gunakan jadwal panggilan dan rotasi untuk cakupan sepanjang hari, setiap hari.

Memanfaatkan metrik asli Kubernetes-:

Pantau komponen inti Kubernetes (node, pod, layanan).
Gunakan kube-state-metrics (KSM) untuk metrik objek Kubernetes tambahan.

Memantau infrastruktur dan aplikasi:

Siapkan peringatan untuk kesehatan klaster, status node, dan pemanfaatan sumber daya.
Menerapkan peringatan khusus aplikasi seperti tingkat kesalahan dan latensi.

Gunakan Prometheus dan Alertmanager:

Gunakan Prometheus untuk pengumpulan metrik dan promQL untuk menentukan kondisi peringatan.
Gunakan Alertmanager untuk perutean peringatan dan deduplikasi.

Integrasikan dengan Amazon CloudWatch:

Gunakan CloudWatchWawasan Kontainer untuk metrik khusus Amazon EKS.
Siapkan CloudWatchalarm untuk metrik AWS sumber daya penting.

Menerapkan lansiran kaya konteks:

Sertakan informasi yang relevan dalam pesan peringatan, seperti nama cluster, namespace, dan detail pod.
Berikan tautan ke dasbor atau runbook yang relevan dalam peringatan.

Gunakan deteksi anomali:

Menerapkan deteksi anomali berbasis pembelajaran mesin untuk pola yang kompleks.
Gunakan layanan seperti deteksi CloudWatch anomali atau alat pihak ketiga.

Menerapkan penindasan dan pembungkaman peringatan:

Izinkan penindasan sementara dari masalah yang diketahui.
Menerapkan jendela pemeliharaan untuk mengurangi kebisingan selama downtime yang direncanakan.

Pantau kinerja peringatan:

Lacak metrik seperti frekuensi peringatan, waktu resolusi, dan tingkat positif palsu.
Tinjau dan perbaiki aturan peringatan secara teratur berdasarkan metrik ini.

Menerapkan prosedur eskalasi:

Tentukan jalur eskalasi yang jelas untuk peringatan yang belum terselesaikan.
Gunakan alat seperti PagerDuty atau Otsgenie untuk eskalasi otomatis.

Uji sistem peringatan secara teratur:

Lakukan tes berkala pada saluran peringatan Anda.
Sertakan pengujian peringatan dalam latihan pemulihan bencana.

Gunakan templat untuk konsistensi peringatan:

Buat templat peringatan standar untuk skenario umum.
Pastikan pemformatan dan informasi yang konsisten di semua peringatan.

Menerapkan pembatasan tingkat:

Cegah badai peringatan dengan menerapkan pembatasan laju pada peringatan yang sering dipicu.

Gunakan metrik khusus:

Menerapkan metrik khusus untuk pemantauan khusus aplikasi.
Gunakan API metrik kustom Kubernetes untuk penskalaan otomatis berdasarkan metrik ini.

Menerapkan integrasi logging:

Korelasikan peringatan dengan log yang relevan untuk pemecahan masalah yang lebih cepat.
Gunakan alat seperti Grafana Loki atau ELK Stack bersama dengan sistem peringatan Anda.

Pertimbangkan peringatan biaya:

Siapkan peringatan untuk lonjakan tak terduga dalam penggunaan atau biaya sumber daya.
Gunakan AWS Budgetsatau alat manajemen biaya pihak ketiga.

Gunakan penelusuran terdistribusi:

Integrasikan alat penelusuran terdistribusi seperti Jaeger atau. AWS X-Ray
Siapkan peringatan untuk pola atau latensi jejak abnormal.

Runbook peringatan dokumen:

Buat runbook yang jelas dan dapat ditindaklanjuti untuk setiap jenis peringatan.
Sertakan langkah-langkah pemecahan masalah dan prosedur eskalasi di runbook.

Dengan mengikuti praktik terbaik ini, Anda dapat membuat sistem peringatan yang kuat, efisien, dan efektif untuk lingkungan Amazon EKS Anda. Ini akan membantu memastikan ketersediaan tinggi, penyelesaian masalah yang cepat, dan kinerja optimal aplikasi berbasis Kubernetes Anda.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Alat

Langkah berikutnya