Peringatan dasar dalam pemantauan dan manajemen insiden untuk Amazon EKS di AMS Accelerate

Setelah memverifikasi peringatan, AMS mengaktifkan peringatan berikut untuk Amazon EKS dan kemudian terlibat dalam pemantauan dan manajemen insiden untuk kluster Amazon EKS pilihan Anda. Waktu respons Perjanjian Tingkat Layanan (SLAs) dan Tujuan Tingkat Layanan (SLOs) bergantung pada Tingkat Layanan akun yang Anda pilih (Plus, Premium). Untuk informasi selengkapnya, lihat Laporan insiden dan permintaan layanan di AMS Accelerate.

Peringatan dan tindakan

Tabel berikut mencantumkan peringatan Amazon EKS dan tindakan masing-masing yang dilakukan AMS:

Pemberitahuan	Ambang batas	Tindakan
Kontainer OOM terbunuh	Jumlah kontainer yang dimulai ulang dalam 10 menit terakhir setidaknya 1 dan kontainer Kubernetes dalam sebuah pod telah dihentikan dengan alasan “OOMKilled” dalam 10 menit terakhir.	AMS menyelidiki apakah pembunuhan OOM disebabkan karena mencapai batas kontainer atau batas memori yang berlebihan, dan kemudian memberi tahu Anda tentang tindakan korektif.
Pod Job Gagal	Pekerjaan Kubernetes gagal diselesaikan. Kegagalan ditunjukkan dengan adanya setidaknya satu status pekerjaan yang gagal.	AMS menyelidiki mengapa pekerjaan Kubernetes atau pekerjaan cron terkait gagal, dan kemudian memberi tahu Anda tentang tindakan korektif.
StatefulSet Bawah	Jumlah replika yang siap melayani lalu lintas tidak sesuai dengan jumlah replika yang ada saat ini per StatefulSet setidaknya 1 menit.	AMS menentukan mengapa pod tidak siap dengan meninjau pesan kesalahan dalam peristiwa pod dan cuplikan log kesalahan di log pod, dan kemudian memberi tahu Anda tentang tindakan korektif.
Kemampuan Penskalaan HPA	Horizontal Pod Autoscaler (HPA) tidak dapat menskalakan karena kondisi status “AbleToScale” salah setidaknya selama 2 menit.	AMS menentukan Kubernetes Horizontal Pod Autoscaler (HPA) mana yang tidak dapat menskalakan Pod untuk sumber daya beban kerja berikutnya, seperti Deployment atau. StatefulSet
Ketersediaan Metrik HPA	Horizontal Pod Autoscaler (HPA) tidak dapat mengumpulkan metrik karena kondisi status “ScalingActive” salah setidaknya selama 2 menit.	AMS menentukan mengapa HPA tidak dapat mengumpulkan metrik, seperti metrik yang terkait dengan masalah konfigurasi server atau masalah otorisasi RBAC.
Pod Belum Siap	Pod Kubernetes tetap dalam keadaan tidak berjalan (seperti Pending, Unknown, atau Failed) selama lebih dari 15 menit.	AMS menyelidiki pod yang terpengaruh untuk detailnya, meninjau log pod untuk kesalahan dan peristiwa terkait, dan kemudian memberi tahu Anda tentang tindakan korektif.
Perulangan Kecelakaan Pod	Kontainer pod dimulai ulang setidaknya sekali setiap 15 menit selama periode 1 jam.	AMS menyelidiki alasan pod tidak dimulai, seperti sumber daya yang tidak mencukupi, file yang dikunci oleh wadah lain, database dikunci oleh kontainer lain, dependensi layanan gagal, masalah DNS untuk layanan eksternal, dan kesalahan konfigurasi.
Daemonset Salah terjadwal	Setidaknya ada satu pod Kubernetes Daemonset yang salah dalam jangka waktu 10 menit.	AMS menentukan mengapa Daemonset dijadwalkan pada node di mana mereka tidak seharusnya berjalan. Ini mungkin terjadi ketika pod yang salah diterapkan ke pod nodeSelector/taints/affinities Daemonset atau ketika node (kumpulan node) tercemar dan pod yang ada tidak dijadwalkan untuk penggusuran.
Kesalahan API Kubernetes	Tingkat kesalahan server API Kubernetes melebihi 3% selama periode 2 menit.	AMS menganalisis log bidang kontrol untuk menentukan volume dan jenis kesalahan yang menyebabkan peringatan ini, dan mengidentifikasi masalah pertentangan sumber daya apa pun untuk grup penskalaan otomatis node master atau etcd. Jika server API tidak pulih, AMS melibatkan tim layanan Amazon EKS.
Latensi API Kubernetes	Latensi persentil ke-99 dari permintaan ke server API Kubernetes melebihi 1 detik selama periode 2 menit.	AMS menganalisis log bidang kontrol untuk menentukan volume dan jenis kesalahan yang menyebabkan latensi dan mengidentifikasi masalah pertentangan sumber daya untuk grup auto-scaling node master atau etcd. Jika server API tidak pulih, AMS melibatkan tim layanan Amazon EKS.
Sertifikat Klien Kubernetes Kedaluwarsa	Sertifikat klien yang digunakan untuk mengautentikasi ke server API Kubernetes akan kedaluwarsa dalam waktu kurang dari 24 jam.	AMS mengirimkan pemberitahuan ini untuk memberi tahu Anda bahwa sertifikat klaster Anda akan kedaluwarsa dalam 24 jam.
Node Tidak Siap	Status kondisi Node “Siap” salah setidaknya selama 10 menit.	AMS menyelidiki kondisi dan peristiwa node, seperti masalah jaringan, yang mencegah akses kubelet ke server API.
Node CPU Tinggi	Beban CPU melebihi 80% selama periode 5 menit.	AMS menentukan apakah satu atau lebih pod mengkonsumsi CPU dalam jumlah yang luar biasa tinggi. Kemudian, AMS memverifikasi dengan Anda bahwa permintaan, batasan, dan aktivitas pod Anda seperti yang diharapkan.
Node OOM Bunuh Terdeteksi	Setidaknya ada satu host OOM kill yang dilaporkan oleh node dalam jendela 4 menit.	AMS menentukan apakah pembunuhan OOM disebabkan karena mencapai batas kontainer atau komit berlebih node. Jika aktivitas aplikasi normal, AMS memberi tahu Anda tentang permintaan dan batasan untuk overcommit dan merevisi batas pod.
Batas Node Conntrack	Rasio jumlah entri pelacakan koneksi saat ini hingga batas maksimum melebihi 80% selama periode 5 menit.	AMS memberi tahu Anda tentang nilai conntrack yang direkomendasikan per inti. Node Kubernetes menetapkan nilai conntrack max sebanding dengan total kapasitas memori node. Aplikasi beban tinggi, terutama pada node yang lebih kecil, dapat dengan mudah melebihi nilai max conntrack, menghasilkan reset koneksi dan batas waktu.
Jam Node Tidak Sinkronisasi	Status sinkronisasi minimum selama periode 2 menit adalah 0, dan kesalahan maksimum dalam hitungan detik adalah 16 atau lebih tinggi.	AMS menentukan apakah Network Time Protocol (NTP) diinstal dan berfungsi dengan baik.
CPU Pod Tinggi	Penggunaan CPU kontainer melebihi 80% lebih dari 3 menit untuk periode minimal 2 menit.	AMS menyelidiki log pod untuk menentukan tugas pod yang mengkonsumsi CPU dalam jumlah tinggi.
Memori Pod Tinggi	Penggunaan memori wadah melebihi 80% dari batas memori yang ditentukan selama periode 2 menit.	AMS menyelidiki log pod untuk menentukan tugas pod yang mengkonsumsi memori dalam jumlah tinggi.
CoreDNS Turun	CoreDNS telah menghilang dari penemuan target Prometheus selama lebih dari 15 menit.	Ini adalah peringatan kritis yang menunjukkan bahwa resolusi nama domain untuk layanan klaster internal atau eksternal dihentikan. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.
Kesalahan CoreDNS	CoreDNS mengembalikan kesalahan SERVFAIL untuk lebih dari 3% permintaan DNS selama periode 10 menit.	Peringatan ini mungkin menandakan masalah dengan aplikasi atau kesalahan konfigurasi. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.
Latensi CoreDNS	Persentil ke-99 dari durasi permintaan DNS melebihi 4 detik selama 10 menit.	Peringatan ini menandakan bahwa CoreDNS mungkin kelebihan beban. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.
Latensi Penerusan CoreDNS	Persentil ke-99 dari waktu respons untuk permintaan penerusan CoreDNS ke kube-dns melebihi 4 detik selama periode 10 menit.	Ketika CoreDNS bukan server otoritatif atau tidak memiliki entri cache untuk nama domanin, CoreDNS meneruskan permintaan DNS ke server DNS hulu. Peringatan ini menandakan bahwa CoreDNS mungkin kelebihan beban atau mungkin ada masalah dengan server DNS hulu. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.
Kesalahan Penerusan CoreDNS	Lebih dari 3% kueri DNS gagal selama periode 5 menit.	Ketika CoreDNS bukan server otoritatif atau tidak memiliki entri cache untuk nama domanin, CoreDNS meneruskan permintaan DNS ke server DNS hulu. Peringatan ini menandakan kemungkinan kesalahan konfigurasi atau masalah dengan server DNS hulu. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Cara kerja pemantauan dan manajemen insiden untuk Amazon EKS

Persyaratan