Peringatan dasar dalam pemantauan dan manajemen insiden untuk Amazon EKS di AMS Accelerate - Panduan Pengguna AMS Accelerate

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Peringatan dasar dalam pemantauan dan manajemen insiden untuk Amazon EKS di AMS Accelerate

Setelah memverifikasi peringatan, AMS mengaktifkan peringatan berikut untuk Amazon EKS dan kemudian terlibat dalam pemantauan dan manajemen insiden untuk kluster Amazon EKS pilihan Anda. Waktu respons Perjanjian Tingkat Layanan (SLAs) dan Tujuan Tingkat Layanan (SLOs) bergantung pada Tingkat Layanan akun yang Anda pilih (Plus, Premium). Untuk informasi selengkapnya, lihat Laporan insiden dan permintaan layanan di AMS Accelerate.

Peringatan dan tindakan

Tabel berikut mencantumkan peringatan Amazon EKS dan tindakan masing-masing yang dilakukan AMS:

Pemberitahuan Ambang batas Tindakan

Kontainer OOM terbunuh

Jumlah kontainer yang dimulai ulang dalam 10 menit terakhir setidaknya 1 dan kontainer Kubernetes dalam sebuah pod telah dihentikan dengan alasan “OOMKilled” dalam 10 menit terakhir.

AMS menyelidiki apakah pembunuhan OOM disebabkan karena mencapai batas kontainer atau batas memori yang berlebihan, dan kemudian memberi tahu Anda tentang tindakan korektif.

Pod Job Gagal

Pekerjaan Kubernetes gagal diselesaikan. Kegagalan ditunjukkan dengan adanya setidaknya satu status pekerjaan yang gagal.

AMS menyelidiki mengapa pekerjaan Kubernetes atau pekerjaan cron terkait gagal, dan kemudian memberi tahu Anda tentang tindakan korektif.

StatefulSet Bawah

Jumlah replika yang siap melayani lalu lintas tidak sesuai dengan jumlah replika yang ada saat ini per StatefulSet setidaknya 1 menit.

AMS menentukan mengapa pod tidak siap dengan meninjau pesan kesalahan dalam peristiwa pod dan cuplikan log kesalahan di log pod, dan kemudian memberi tahu Anda tentang tindakan korektif.

Kemampuan Penskalaan HPA

Horizontal Pod Autoscaler (HPA) tidak dapat menskalakan karena kondisi status “AbleToScale” salah setidaknya selama 2 menit.

AMS menentukan Kubernetes Horizontal Pod Autoscaler (HPA) mana yang tidak dapat menskalakan Pod untuk sumber daya beban kerja berikutnya, seperti Deployment atau. StatefulSet

Ketersediaan Metrik HPA

Horizontal Pod Autoscaler (HPA) tidak dapat mengumpulkan metrik karena kondisi status “ScalingActive” salah setidaknya selama 2 menit.

AMS menentukan mengapa HPA tidak dapat mengumpulkan metrik, seperti metrik yang terkait dengan masalah konfigurasi server atau masalah otorisasi RBAC.

Pod Belum Siap

Pod Kubernetes tetap dalam keadaan tidak berjalan (seperti Pending, Unknown, atau Failed) selama lebih dari 15 menit.

AMS menyelidiki pod yang terpengaruh untuk detailnya, meninjau log pod untuk kesalahan dan peristiwa terkait, dan kemudian memberi tahu Anda tentang tindakan korektif.

Perulangan Kecelakaan Pod

Kontainer pod dimulai ulang setidaknya sekali setiap 15 menit selama periode 1 jam.

AMS menyelidiki alasan pod tidak dimulai, seperti sumber daya yang tidak mencukupi, file yang dikunci oleh wadah lain, database dikunci oleh kontainer lain, dependensi layanan gagal, masalah DNS untuk layanan eksternal, dan kesalahan konfigurasi.

Daemonset Salah terjadwal

Setidaknya ada satu pod Kubernetes Daemonset yang salah dalam jangka waktu 10 menit.

AMS menentukan mengapa Daemonset dijadwalkan pada node di mana mereka tidak seharusnya berjalan. Ini mungkin terjadi ketika pod yang salah diterapkan ke pod nodeSelector/taints/affinities Daemonset atau ketika node (kumpulan node) tercemar dan pod yang ada tidak dijadwalkan untuk penggusuran.

Kesalahan API Kubernetes

Tingkat kesalahan server API Kubernetes melebihi 3% selama periode 2 menit.

AMS menganalisis log bidang kontrol untuk menentukan volume dan jenis kesalahan yang menyebabkan peringatan ini, dan mengidentifikasi masalah pertentangan sumber daya apa pun untuk grup penskalaan otomatis node master atau etcd. Jika server API tidak pulih, AMS melibatkan tim layanan Amazon EKS.

Latensi API Kubernetes

Latensi persentil ke-99 dari permintaan ke server API Kubernetes melebihi 1 detik selama periode 2 menit.

AMS menganalisis log bidang kontrol untuk menentukan volume dan jenis kesalahan yang menyebabkan latensi dan mengidentifikasi masalah pertentangan sumber daya untuk grup auto-scaling node master atau etcd. Jika server API tidak pulih, AMS melibatkan tim layanan Amazon EKS.

Sertifikat Klien Kubernetes Kedaluwarsa

Sertifikat klien yang digunakan untuk mengautentikasi ke server API Kubernetes akan kedaluwarsa dalam waktu kurang dari 24 jam.

AMS mengirimkan pemberitahuan ini untuk memberi tahu Anda bahwa sertifikat klaster Anda akan kedaluwarsa dalam 24 jam.

Node Tidak Siap

Status kondisi Node “Siap” salah setidaknya selama 10 menit.

AMS menyelidiki kondisi dan peristiwa node, seperti masalah jaringan, yang mencegah akses kubelet ke server API.

Node CPU Tinggi

Beban CPU melebihi 80% selama periode 5 menit.

AMS menentukan apakah satu atau lebih pod mengkonsumsi CPU dalam jumlah yang luar biasa tinggi. Kemudian, AMS memverifikasi dengan Anda bahwa permintaan, batasan, dan aktivitas pod Anda seperti yang diharapkan.

Node OOM Bunuh Terdeteksi

Setidaknya ada satu host OOM kill yang dilaporkan oleh node dalam jendela 4 menit.

AMS menentukan apakah pembunuhan OOM disebabkan karena mencapai batas kontainer atau komit berlebih node. Jika aktivitas aplikasi normal, AMS memberi tahu Anda tentang permintaan dan batasan untuk overcommit dan merevisi batas pod.

Batas Node Conntrack

Rasio jumlah entri pelacakan koneksi saat ini hingga batas maksimum melebihi 80% selama periode 5 menit.

AMS memberi tahu Anda tentang nilai conntrack yang direkomendasikan per inti. Node Kubernetes menetapkan nilai conntrack max sebanding dengan total kapasitas memori node. Aplikasi beban tinggi, terutama pada node yang lebih kecil, dapat dengan mudah melebihi nilai max conntrack, menghasilkan reset koneksi dan batas waktu.

Jam Node Tidak Sinkronisasi

Status sinkronisasi minimum selama periode 2 menit adalah 0, dan kesalahan maksimum dalam hitungan detik adalah 16 atau lebih tinggi.

AMS menentukan apakah Network Time Protocol (NTP) diinstal dan berfungsi dengan baik.

CPU Pod Tinggi

Penggunaan CPU kontainer melebihi 80% lebih dari 3 menit untuk periode minimal 2 menit.

AMS menyelidiki log pod untuk menentukan tugas pod yang mengkonsumsi CPU dalam jumlah tinggi.

Memori Pod Tinggi

Penggunaan memori wadah melebihi 80% dari batas memori yang ditentukan selama periode 2 menit.

AMS menyelidiki log pod untuk menentukan tugas pod yang mengkonsumsi memori dalam jumlah tinggi.

CoreDNS Turun

CoreDNS telah menghilang dari penemuan target Prometheus selama lebih dari 15 menit.

Ini adalah peringatan kritis yang menunjukkan bahwa resolusi nama domain untuk layanan klaster internal atau eksternal dihentikan. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.

Kesalahan CoreDNS

CoreDNS mengembalikan kesalahan SERVFAIL untuk lebih dari 3% permintaan DNS selama periode 10 menit.

Peringatan ini mungkin menandakan masalah dengan aplikasi atau kesalahan konfigurasi. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.

Latensi CoreDNS

Persentil ke-99 dari durasi permintaan DNS melebihi 4 detik selama 10 menit.

Peringatan ini menandakan bahwa CoreDNS mungkin kelebihan beban. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.

Latensi Penerusan CoreDNS

Persentil ke-99 dari waktu respons untuk permintaan penerusan CoreDNS ke kube-dns melebihi 4 detik selama periode 10 menit.

Ketika CoreDNS bukan server otoritatif atau tidak memiliki entri cache untuk nama domanin, CoreDNS meneruskan permintaan DNS ke server DNS hulu. Peringatan ini menandakan bahwa CoreDNS mungkin kelebihan beban atau mungkin ada masalah dengan server DNS hulu. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.

Kesalahan Penerusan CoreDNS

Lebih dari 3% kueri DNS gagal selama periode 5 menit.

Ketika CoreDNS bukan server otoritatif atau tidak memiliki entri cache untuk nama domanin, CoreDNS meneruskan permintaan DNS ke server DNS hulu. Peringatan ini menandakan kemungkinan kesalahan konfigurasi atau masalah dengan server DNS hulu. AMS memeriksa status pod CoreDNS, memverifikasi konfigurasi CoreDNS, memverifikasi titik akhir DNS yang mengarah ke pod CoreDNS, memverifikasi batas CoreDNS, dan dengan persetujuan Anda, mengaktifkan logging debug CoreDNS.