

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Peringatan di Amazon EKS
<a name="alerting"></a>

Peringatan adalah komponen penting dalam mengelola dan memelihara aplikasi yang berjalan di Amazon EKS. Ini berfungsi sebagai sistem peringatan dini yang memberi tahu operator dan pengembang tentang potensi masalah, anomali, atau penurunan kinerja sebelum mereka meningkat menjadi masalah serius yang dapat memengaruhi ketersediaan layanan atau pengalaman pengguna. Peringatan melibatkan pemantauan berbagai aspek klaster Kubernetes, termasuk:
+ Infrastruktur kesehatan
+ Kinerja aplikasi
+ Metrik kontainer
+ Metrik bisnis khusus

Peringatan yang efektif di Amazon EKS lebih dari sekadar mengatur notifikasi. Ini membutuhkan well-thought-out strategi yang menyeimbangkan kebutuhan akan informasi tepat waktu dengan potensi kelelahan waspada. Strategi ini harus:
+ Tentukan ambang batas dan kondisi yang bermakna.
+ Prioritaskan peringatan berdasarkan tingkat keparahan dan dampak.
+ Menerapkan prosedur routing dan eskalasi yang tepat.
+ Integrasikan dengan manajemen insiden dan alat komunikasi.

**Topics**
+ [Alat](alerting-tools.md)
+ [Praktik terbaik](alerting-best-practices.md)

# Alat peringatan untuk Amazon EKS
<a name="alerting-tools"></a>

Amazon EKS mendukung beberapa AWS opsi pihak ketiga untuk menerapkan peringatan. Saat Anda memilih alat untuk peringatan Amazon EKS, pertimbangkan faktor-faktor seperti kemampuan integrasi, skalabilitas, kemudahan penggunaan, biaya, dan fitur spesifik yang sesuai dengan persyaratan pemantauan dan peringatan Anda. Banyak organisasi menggunakan kombinasi alat ini untuk membuat solusi pemantauan dan peringatan yang komprehensif untuk lingkungan Amazon EKS mereka.
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): **Layanan AWS **untuk pemantauan dan observabilitas

  CloudWatch menyediakan metrik, log, dan alarm untuk kluster EKS, dan terintegrasi dengan baik dengan yang lain. Layanan AWS
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html): Alat pemantauan dan peringatan open source untuk Kubernetes

  Prometheus menyediakan bahasa kueri yang kuat (PromQL) untuk menentukan kondisi peringatan.
+ [Alertmanager](https://prometheus.io/docs/alerting/latest/alertmanager/): Pendamping Prometheus untuk menangani peringatan

  Alertmanager menyediakan deduplikasi, pengelompokan, dan perutean peringatan. Ini mendukung berbagai saluran notifikasi, termasuk email, Slack, dan PagerDuty.
+ [Grafana](https://aws.amazon.com/grafana/): Platform open source untuk pemantauan dan observabilitas

  Grafana memberikan kemampuan visualisasi dan peringatan. Ini dapat berintegrasi dengan berbagai sumber data, termasuk Prometheus dan. CloudWatch
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/what-is/elk-stack/): Kombinasi Elasticsearch, Logstash, dan Kibana

  Alat ini berguna untuk agregasi log, analisis, dan peringatan. Hal ini dapat diperluas dengan fitur observabilitas Elastic.
+ Solusi pihak ketiga

  Ada banyak alat yang tersedia di pasaran, termasuk Datadog, New Relic, Sysdig, Dynatrace, Zabbix, Nagios, Splunk, IBM Instana, dan. AppDynamics

# Praktik terbaik untuk peringatan di Amazon EKS
<a name="alerting-best-practices"></a>

Bagian ini menjelaskan praktik terbaik untuk membuat sistem peringatan yang kuat yang meningkatkan keandalan dan kinerja aplikasi berbasis Kubernetes Anda di Amazon EKS.

Tentukan ambang batas peringatan yang jelas:
+ Tetapkan ambang batas yang berarti berdasarkan data historis dan persyaratan bisnis.
+ Gunakan ambang dinamis jika sesuai untuk memperhitungkan beban kerja yang bervariasi.

Menerapkan prioritas peringatan:
+ Kategorikan peringatan berdasarkan tingkat keparahan (misalnya, kritis, tinggi, sedang, rendah).
+ Sejajarkan prioritas peringatan dengan dampak bisnis.

Hindari kelelahan waspada:
+ Kurangi kebisingan dengan menghilangkan peringatan berlebihan atau bernilai rendah.
+ Korelasikan peringatan dengan masalah terkait grup.

Gunakan peringatan multi-tahap:
+ Terapkan ambang peringatan sebelum level kritis tercapai.
+ Gunakan saluran notifikasi yang berbeda untuk tingkat keparahan peringatan yang berbeda.

Menerapkan perutean peringatan yang tepat:
+ Pastikan peringatan dikirim ke tim atau individu yang tepat.
+ Gunakan jadwal panggilan dan rotasi untuk cakupan sepanjang hari, setiap hari.

Memanfaatkan metrik asli Kubernetes-:
+ Pantau komponen inti Kubernetes (node, pod, layanan).
+ Gunakan [kube-state-metrics (KSM) untuk metrik](https://github.com/kubernetes/kube-state-metrics) objek Kubernetes tambahan.

Memantau infrastruktur dan aplikasi:
+ Siapkan peringatan untuk kesehatan klaster, status node, dan pemanfaatan sumber daya.
+ Menerapkan peringatan khusus aplikasi seperti tingkat kesalahan dan latensi.

Gunakan Prometheus dan Alertmanager:
+ Gunakan Prometheus untuk pengumpulan metrik dan promQL untuk menentukan kondisi peringatan.
+ Gunakan Alertmanager untuk perutean peringatan dan deduplikasi.

Integrasikan dengan Amazon CloudWatch:
+ Gunakan [CloudWatchWawasan Kontainer](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) untuk metrik khusus Amazon EKS.
+ Siapkan [CloudWatchalarm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) untuk metrik AWS sumber daya penting.

Menerapkan lansiran kaya konteks:
+ Sertakan informasi yang relevan dalam pesan peringatan, seperti nama cluster, namespace, dan detail pod.
+ Berikan tautan ke dasbor atau runbook yang relevan dalam peringatan.

Gunakan deteksi anomali:
+ Menerapkan deteksi anomali berbasis pembelajaran mesin untuk pola yang kompleks.
+ Gunakan layanan seperti deteksi CloudWatch anomali atau alat pihak ketiga.

Menerapkan penindasan dan pembungkaman peringatan:
+ Izinkan penindasan sementara dari masalah yang diketahui.
+ Menerapkan jendela pemeliharaan untuk mengurangi kebisingan selama downtime yang direncanakan.

Pantau kinerja peringatan:
+ Lacak metrik seperti frekuensi peringatan, waktu resolusi, dan tingkat positif palsu.
+ Tinjau dan perbaiki aturan peringatan secara teratur berdasarkan metrik ini.

Menerapkan prosedur eskalasi:
+ Tentukan jalur eskalasi yang jelas untuk peringatan yang belum terselesaikan.
+ Gunakan alat seperti PagerDuty atau Otsgenie untuk eskalasi otomatis.

Uji sistem peringatan secara teratur:
+ Lakukan tes berkala pada saluran peringatan Anda.
+ Sertakan pengujian peringatan dalam latihan pemulihan bencana.

Gunakan templat untuk konsistensi peringatan:
+ Buat templat peringatan standar untuk skenario umum.
+ Pastikan pemformatan dan informasi yang konsisten di semua peringatan.

Menerapkan pembatasan tingkat:
+ Cegah badai peringatan dengan menerapkan pembatasan laju pada peringatan yang sering dipicu.

Gunakan metrik khusus:
+ Menerapkan metrik khusus untuk pemantauan khusus aplikasi.
+ Gunakan API metrik kustom Kubernetes untuk penskalaan otomatis berdasarkan metrik ini.

Menerapkan integrasi logging:
+ Korelasikan peringatan dengan log yang relevan untuk pemecahan masalah yang lebih cepat.
+ Gunakan alat seperti Grafana Loki atau ELK Stack bersama dengan sistem peringatan Anda.

Pertimbangkan peringatan biaya:
+ Siapkan peringatan untuk lonjakan tak terduga dalam penggunaan atau biaya sumber daya.
+ Gunakan [AWS Budgets](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)atau alat manajemen biaya pihak ketiga.

Gunakan penelusuran terdistribusi:
+ Integrasikan alat penelusuran terdistribusi seperti Jaeger atau. [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ Siapkan peringatan untuk pola atau latensi jejak abnormal.

Runbook peringatan dokumen:
+ Buat runbook yang jelas dan dapat ditindaklanjuti untuk setiap jenis peringatan.
+ Sertakan langkah-langkah pemecahan masalah dan prosedur eskalasi di runbook.

Dengan mengikuti praktik terbaik ini, Anda dapat membuat sistem peringatan yang kuat, efisien, dan efektif untuk lingkungan Amazon EKS Anda. Ini akan membantu memastikan ketersediaan tinggi, penyelesaian masalah yang cepat, dan kinerja optimal aplikasi berbasis Kubernetes Anda.