

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pemantauan di Amazon EKS
<a name="monitoring"></a>

Pemantauan di Amazon EKS memberikan visibilitas kritis terhadap kesehatan, kinerja, dan keamanan beban kerja Kubernetes Anda. Tanpa pemantauan yang tepat, Anda berisiko mengalami gangguan layanan, pelanggaran keamanan, dan pemanfaatan sumber daya yang tidak efisien yang dapat memengaruhi operasi bisnis dan meningkatkan biaya. Pemantauan yang efektif memungkinkan Anda mengidentifikasi dan menyelesaikan masalah secara proaktif, mengoptimalkan penggunaan sumber daya, dan mempertahankan persyaratan kepatuhan di seluruh aplikasi kontainer Anda. Dengan menerapkan solusi pemantauan komprehensif, Anda dapat memastikan ketersediaan tinggi, mendeteksi anomali lebih awal, dan membuat keputusan berdasarkan data untuk penskalaan dan peningkatan infrastruktur Amazon EKS Anda.

Bagian ini mengeksplorasi berbagai aspek pemantauan Amazon EKS, termasuk berbagai jenis pemantauan, alat yang tersedia, dan praktik terbaik untuk membantu Anda membangun strategi pemantauan yang kuat untuk lingkungan Kubernetes Anda.

**Topics**
+ [Jenis pemantauan](monitoring-types.md)
+ [Alat](monitoring-tools.md)
+ [Menerapkan ketersediaan tinggi](monitoring-ha-setup.md)
+ [Praktik terbaik](monitoring-best-practices.md)
+ [Pertimbangan lanjutan](monitoring-considerations.md)

# Jenis pemantauan di Amazon EKS
<a name="monitoring-types"></a>

Observabilitas yang efektif di Amazon EKS melibatkan aktivitas pemantauan infrastruktur, aplikasi, dan keamanan.

## Pemantauan Infrastruktur
<a name="infrastructure"></a>

Pemantauan infrastruktur adalah komponen fundamental dari observabilitas Amazon EKS yang memberikan wawasan mendalam tentang kesehatan dan kinerja elemen dasar klaster Kubernetes Anda. Pada intinya, ini melibatkan pelacakan tanda-tanda vital dari komponen bidang kontrol dan node pekerja, dan memastikan bahwa platform yang mendasarinya tetap stabil dan efisien.
+ **Pemantauan bidang kontrol** sangat penting karena mengawasi komponen utama seperti server API, database etcd, dan penjadwal. Dengan memantau latensi server API, Anda dapat dengan cepat mengidentifikasi hambatan kinerja yang mungkin memengaruhi penerapan aplikasi atau operasi penskalaan. Pemantauan kinerja Etcd memvalidasi bahwa database status cluster beroperasi secara efisien dan mencegah masalah konsistensi data yang dapat berdampak pada seluruh cluster.
+ **Pemantauan tingkat simpul sama pentingnya karena berfokus pada sumber daya komputasi yang menjalankan beban kerja kontainer** Anda. Ini termasuk melacak pemanfaatan CPU, konsumsi memori, disk I/O, dan kinerja jaringan di semua node pekerja. Memahami metrik ini membantu mencegah kehabisan sumber daya, mengoptimalkan keputusan penskalaan node, dan memastikan perencanaan kapasitas yang tepat.
+ **Pemantauan jaringan** memainkan peran penting dalam menjaga komunikasi yang andal antara pod, layanan, dan sumber daya eksternal. Dengan memantau throughput jaringan, latensi, dan status koneksi, Anda dapat mengidentifikasi masalah konektivitas lebih awal dan memastikan komunikasi aplikasi yang lancar. Pemantauan penyimpanan melengkapi pemantauan jaringan dengan melacak kinerja volume, pemanfaatan kapasitas, dan I/O pola, untuk membantu mencegah kemacetan terkait data.

Pemantauan infrastruktur berfungsi sebagai sistem peringatan dini untuk masalah potensial, memungkinkan pemeliharaan proaktif, dan memastikan alokasi sumber daya yang optimal. Tanpa pemantauan infrastruktur yang kuat, Anda berisiko mengalami downtime yang tidak terduga, kinerja yang menurun, dan penggunaan sumber daya yang tidak efisien yang dapat berdampak signifikan pada operasi dan biaya bisnis.

## Pemantauan aplikasi
<a name="application"></a>

Pemantauan aplikasi sangat penting untuk menjaga aplikasi kontainer yang sehat, berkinerja, dan andal di lingkungan Amazon EKS Anda. Tingkat pemantauan ini berfokus pada beban kerja aktual yang berjalan di dalam klaster Anda dan memberikan wawasan penting tentang bagaimana aplikasi Anda berperilaku, berkinerja, dan berinteraksi dengan layanan lain.

Pemantauan aplikasi meliputi pemantauan tingkat kontainer, pemantauan tingkat layanan, dan penelusuran terdistribusi.
+ Pada **tingkat kontainer**, pemantauan aplikasi melacak metrik penting seperti status kesehatan kontainer, jumlah restart, dan pola konsumsi sumber daya. Metrik ini membantu Anda mengidentifikasi wadah bermasalah yang mungkin menghabiskan sumber daya berlebihan atau sering mengalami restart, yang dapat menunjukkan masalah mendasar seperti kebocoran memori atau masalah konfigurasi. Dengan memantau peristiwa siklus hidup kontainer, Anda dapat memastikan perilaku aplikasi yang tepat dan memecahkan masalah penerapan dengan cepat.
+ **Pemantauan tingkat layanan** memberikan visibilitas ke metrik kinerja dan keandalan aplikasi seperti waktu respons, tingkat kesalahan, dan throughput permintaan. Metrik ini sangat penting untuk mempertahankan tujuan tingkat layanan (SLOs) dan memastikan pengalaman pengguna akhir yang positif. Anda dapat melacak latensi di berbagai titik akhir layanan, mengidentifikasi kemacetan kinerja, dan memantau pola kesalahan untuk mempertahankan keandalan aplikasi.
+ **Penelusuran terdistribusi** adalah aspek penting lain dari pemantauan aplikasi, terutama dalam arsitektur layanan mikro. Dengan menerapkan tracing, Anda dapat mengikuti permintaan saat mereka mengalir melalui layanan yang berbeda, memahami dependensi, dan mengidentifikasi hambatan kinerja. end-to-endVisibilitas ini membantu Anda mengoptimalkan interaksi layanan dan memecahkan masalah kompleks yang mencakup beberapa komponen.

Metrik aplikasi khusus memainkan peran penting dalam memberikan wawasan khusus bisnis. Ini mungkin termasuk metrik seperti tingkat pemrosesan pesanan, frekuensi login pengguna, atau tingkat keberhasilan transaksi. Anda dapat mengkorelasikan metrik kustom ini dengan metrik infrastruktur dan kontainer untuk lebih memahami bagaimana kinerja infrastruktur memengaruhi operasi bisnis dan membuat keputusan berdasarkan data untuk penskalaan dan pengoptimalan.

Pentingnya pemantauan aplikasi terletak pada kemampuannya untuk memberikan pandangan komprehensif tentang kesehatan dan kinerja aplikasi. Pemantauan ini memungkinkan Anda mempertahankan kualitas layanan yang tinggi, menyelesaikan masalah dengan cepat, dan terus mengoptimalkan aplikasi Anda untuk memenuhi tujuan bisnis.

## Pemantauan keamanan
<a name="security"></a>

Pemantauan keamanan di Amazon EKS adalah aktivitas penting yang membantu organisasi menjaga integritas, kerahasiaan, dan kepatuhan lingkungan Kubernetes mereka. Pendekatan keamanan komprehensif ini menggabungkan pengawasan berkelanjutan, deteksi ancaman, dan pemantauan kepatuhan untuk melindungi beban kerja dalam peti kemas dari potensi risiko keamanan dan akses tidak sah. Ini mencakup pemantauan otentikasi dan otorisasi, pemantauan keamanan jaringan, dan pemantauan konfigurasi dan kepatuhan.
+ **Pemantauan otentikasi dan otorisasi** membentuk garis pertahanan pertama dengan melacak semua upaya untuk mengakses cluster. Ini termasuk memantau permintaan server API, melacak upaya login yang berhasil dan gagal, dan mengaudit perubahan kontrol akses berbasis peran (RBAC). Dengan memelihara log audit terperinci tentang siapa yang mengakses sumber daya dan kapan, Anda dapat dengan cepat mendeteksi potensi pelanggaran keamanan, upaya akses yang tidak sah, atau aktivitas eskalasi hak istimewa. Ini sangat penting dalam lingkungan multi-penyewa di mana mempertahankan kontrol akses yang ketat sangat penting.
+ **Pemantauan keamanan jaringan** berfokus pada mendeteksi dan mencegah komunikasi yang tidak sah antara pod dan layanan. Dengan memantau pelanggaran kebijakan jaringan dan pola lalu lintas yang tidak biasa, Anda dapat mengidentifikasi potensi ancaman keamanan seperti upaya pelarian kontainer atau pergerakan lateral dalam cluster. Ini termasuk melacak komunikasi klaster internal dan pola lalu lintas eksternal untuk memastikan bahwa kontainer hanya berkomunikasi dengan titik akhir resmi dan mengikuti kebijakan keamanan yang ditentukan.
+ **Konfigurasi dan pemantauan kepatuhan** sangat penting untuk menjaga garis dasar keamanan dan memenuhi persyaratan peraturan. Ini melibatkan pemindaian gambar kontainer secara terus menerus untuk mencari kerentanan, memantau keamanan runtime, dan melacak perubahan konfigurasi yang mungkin memengaruhi postur keamanan. Audit kepatuhan reguler memastikan kepatuhan terhadap standar industri dan kebijakan keamanan organisasi, dan deteksi penyimpangan konfigurasi membantu mencegah perubahan yang tidak sah yang dapat menimbulkan risiko keamanan.

Pemantauan keamanan di Amazon EKS memberikan visibilitas dan kontrol yang diperlukan untuk membantu melindungi dari ancaman keamanan modern sambil memastikan kepatuhan terhadap persyaratan peraturan. Dengan menerapkan pemantauan keamanan yang komprehensif, organisasi Anda dapat mempertahankan postur keamanan yang kuat, merespons insiden keamanan dengan cepat, dan menunjukkan kepatuhan terhadap berbagai standar peraturan.

# Alat pemantauan untuk Amazon EKS
<a name="monitoring-tools"></a>

Bagian ini membahas tiga kategori alat pemantauan Amazon EKS: layanan AWS pemantauan, solusi open source atau proprietary, dan alat khusus.

## AWS layanan
<a name="monitoring-services"></a>
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): Layanan pemantauan dan pencatatan yang komprehensif

  CloudWatch membentuk tulang punggung solusi AWS pemantauan dan menyediakan kemampuan ekstensif untuk lingkungan Amazon EKS. Ini memberikan Wawasan Kontainer untuk kontainer granular dan metrik cluster, sehingga Anda dapat memantau kinerja, pemanfaatan sumber daya, dan kesehatan aplikasi. Layanan ini unggul dalam agregasi dan analisis log, dan mendukung logging terpusat di seluruh kontainer dan node. CloudWatch terintegrasi secara alami dengan Layanan AWS. Ini menyediakan konfigurasi alarm otomatis dan mendukung metrik dan dasbor khusus, yang menjadikannya alat penting untuk pemantauan Amazon EKS.
+ [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html): Platform penelusuran terdistribusi tingkat lanjut

  X-Ray meningkatkan observabilitas dengan menyediakan kemampuan penelusuran terdistribusi yang canggih. Visualisasi peta layanannya menawarkan wawasan yang jelas tentang arsitektur dan dependensi aplikasi, dan pelacakan permintaan terperinci membantu mengidentifikasi kemacetan kinerja di seluruh layanan. X-Ray dapat melacak permintaan melalui arsitektur layanan mikro yang kompleks, yang membuatnya sangat berharga untuk pemecahan masalah dan pengoptimalan, terutama dalam sistem terdistribusi yang menjangkau banyak. Layanan AWS
+ [AWS Distro untuk OpenTelemetry: Kerangka](https://aws-otel.github.io/) observabilitas terpadu

  Distro untuk OpenTelemetry menyediakan kemampuan pengumpulan data terpadu dengan dukungan lintas platform, yang membuatnya ideal untuk lingkungan hybrid. Layanan ini terintegrasi dengan yang lain Layanan AWS, mendukung instrumentasi khusus, dan menawarkan fleksibilitas dalam menerapkan solusi pemantauan komprehensif sambil mempertahankan kompatibilitas dengan standar industri.
+ [Grafana yang Dikelola Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html): Visualisasi tingkat perusahaan

  Grafana yang Dikelola Amazon menyediakan layanan yang dikelola sepenuhnya untuk visualisasi dan analitik data. Ini menawarkan integrasi tanpa batas dengan fitur keamanan bawaan lainnya Layanan AWS, dan skalabilitas tingkat perusahaan. Layanan ini menyederhanakan pembuatan dan manajemen dasbor sambil menyediakan fitur-fitur canggih seperti akses sumber data lintas akun dan integrasi dengan. AWS IAM Identity Center
+ [Layanan Terkelola Amazon untuk Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html): Pemantauan yang sangat tersedia, aman, dan terkelola

  Layanan Terkelola Amazon untuk Prometheus adalah layanan pemantauan yang kompatibel dengan Prometheus yang dikelola sepenuhnya. Ini menyediakan penskalaan otomatis, ketersediaan tinggi, dan penyerapan dan kueri metrik yang aman. Layanan ini terintegrasi secara mulus dengan Amazon EKS dan menghilangkan biaya operasional pengelolaan server Prometheus.

## Solusi open source atau proprietary
<a name="monitoring-open-source"></a>

 AWS Alat yang dijelaskan di bagian sebelumnya menawarkan integrasi yang mulus dan layanan terkelola. Alat open source yang tercantum di bagian ini melengkapi Layanan AWS dengan memberikan fleksibilitas dan opsi penyesuaian yang luas. Memahami kemampuan dan kasus penggunaan setiap alat membantu Anda merancang strategi pemantauan yang paling memenuhi persyaratan spesifik Anda.
+ [Prometheus: Toolkit](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html) pengumpulan metrik

  Prometheus adalah solusi open source untuk pengumpulan metrik di lingkungan Kubernetes. Database deret waktu dan bahasa kueri PromQL memungkinkan analisis metrik yang canggih. Kemampuan penemuan layanan platform secara otomatis beradaptasi dengan lingkungan Kubernetes yang dinamis, dan sistem manajemen peringatannya memberi Anda informasi tentang masalah kritis. Prometheus menyediakan opsi integrasi yang luas, yang menjadikannya pilihan serbaguna untuk pemantauan metrik yang komprehensif.
+ [Grafana: Mesin visualisasi](https://grafana.com/docs/grafana-cloud/monitor-infrastructure/kubernetes-monitoring/configuration/config-other-methods/config-aws-eks/) tingkat lanjut

  Grafana mengubah data pemantauan yang kompleks menjadi wawasan yang dapat ditindaklanjuti melalui kemampuan visualisasinya. Platform ini membuat dasbor khusus yang menggabungkan data dari berbagai sumber dan memberikan tampilan terpadu infrastruktur dan metrik aplikasi. Dukungannya untuk berbagai sumber data dan fitur manajemen peringatan memberikan pemantauan yang komprehensif. Grafana dapat membantu Anda memvisualisasikan data real-time dan historis, sehingga Anda dapat mengidentifikasi tren dan membuat keputusan yang tepat.
+ [Fluent Bit](https://fluentbit.io/): Lapisan logging terpadu

  Solusi logging ini menyediakan pengumpulan dan pengelolaan log untuk lingkungan Kubernetes. Integrasi asli Kubernetes memastikan pengumpulan log yang mulus dari kontainer dan node, dan dukungannya untuk beberapa tujuan keluaran menawarkan fleksibilitas dalam penyimpanan dan analisis log. Fitur lanjutan seperti penguraian log dan pemfilteran memungkinkan Anda memproses dan merutekan log berdasarkan persyaratan tertentu. Sifat ringan dari Fluent Bit membuatnya sangat cocok untuk lingkungan kontainer.
+ [Datadog](https://www.datadoghq.com/blog/eks-monitoring-datadog/): Observabilitas tumpukan penuh

  Datadog menyediakan kemampuan pemantauan komprehensif dengan dukungan Kubernetes asli. Ini menawarkan pemantauan infrastruktur, pemantauan kinerja aplikasi (APM), manajemen log, dan analitik real-time. Anda dapat menggunakan penemuan layanan otomatis platform dan katalog integrasi ekstensif untuk pemantauan Amazon EKS, dan kemampuan pembelajaran mesinnya untuk mendeteksi anomali dan memprediksi potensi masalah.
+ [Relik Baru](https://docs.newrelic.com/docs/infrastructure/amazon-integrations/connect/eks-add-on/): Pemantauan kinerja aplikasi

  New Relic menawarkan visibilitas ke kinerja aplikasi dan kesehatan infrastruktur. Integrasi Kubernetes menyediakan wawasan kontainer yang mendetail, penelusuran terdistribusi, dan dasbor khusus. Platform ini membantu Anda menghubungkan kinerja aplikasi dengan metrik infrastruktur, sehingga Anda dapat dengan cepat mengidentifikasi dan menyelesaikan masalah.
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/opensearch-service/resources/the-benefits-of-the-elk-stack/): Analisis log dan pencarian

  ELK Stack menggabungkan Elasticsearch, Logstash, dan Kibana untuk menyediakan manajemen log dan kemampuan analisis. Ini menawarkan fungsionalitas pencarian lanjutan, alat visualisasi, dan fitur pembelajaran mesin. Anda dapat menggunakan tumpukan untuk menangani volume besar data log dari lingkungan Amazon EKS Anda.

## Alat khusus
<a name="monitoring-special"></a>

Anda dapat mencampur dan mencocokkan alat-alat berikut berdasarkan persyaratan pemantauan spesifik Anda, skala operasi, dan preferensi organisasi. Kuncinya adalah membuat tumpukan pemantauan yang memberikan visibilitas komprehensif sambil tetap dapat dikelola dan hemat biaya.
+ [kube-state-metrics (KSM): Pemantauan](https://github.com/kubernetes/kube-state-metrics) status Kubernetes

  Layanan add-on ini mendengarkan server API Kubernetes dan menghasilkan metrik tentang status objek. Ini memberikan wawasan tentang kesehatan penerapan, pod, dan sumber daya Kubernetes lainnya.
+ [Kubernetes Metrics Server: Metrik sumber daya](https://docs.aws.amazon.com/eks/latest/userguide/metrics-server.html)

  Server metrik ini mengumpulkan metrik sumber daya dari kubelet dan mengeksposnya melalui API metrik Kubernetes. Ini menyediakan penskalaan otomatis pod horizontal dan CPU dasar dan metrik memori.
+ [Kubecost: Pemantauan](https://github.com/kubecost/cost-analyzer-helm-chart) biaya Kubernetes

  Alat seperti Kubecost memberikan analisis biaya rinci dan rekomendasi optimasi untuk kluster EKS. Mereka membantu Anda memahami dan mengoptimalkan pengeluaran cloud di berbagai ruang nama, penerapan, dan layanan.

# Menerapkan ketersediaan tinggi untuk solusi pemantauan Amazon EKS
<a name="monitoring-ha-setup"></a>

Strategi ketersediaan tinggi (HA) yang kuat untuk pemantauan Amazon EKS sangat penting untuk memastikan visibilitas berkelanjutan ke lingkungan Kubernetes Anda. Bagian ini membahas pendekatan komprehensif untuk menerapkan HA di berbagai aspek infrastruktur pemantauan Anda.

## Redundansi dan skalabilitas arsitektur
<a name="architecture"></a>

Membangun sistem pemantauan yang sangat tersedia dimulai dengan desain arsitektur yang tepat. Komponen pemantauan harus didistribusikan di beberapa AWS Availability Zone untuk melindungi dari kegagalan zona. Ini termasuk menerapkan penskalaan horizontal untuk komponen pemantauan penting seperti server Prometheus, pengumpul log, dan manajer peringatan. Anda dapat menggunakan layanan AWS terkelola seperti Amazon Managed Service for Prometheus dan Amazon Managed Grafana untuk membantu mengurangi overhead operasional sekaligus memastikan ketersediaan yang tinggi. Konfigurasikan mekanisme failover otomatis untuk menjaga kontinuitas layanan selama kegagalan komponen, dengan pemeriksaan kesehatan dan prosedur pemulihan otomatis.

## Strategi penyimpanan data yang tangguh
<a name="data-storage"></a>

Ketahanan penyimpanan data sangat penting untuk menjaga keandalan sistem pemantauan. Menerapkan solusi penyimpanan terdistribusi memastikan bahwa data metrik dan log tetap dapat diakses bahkan jika node penyimpanan individu gagal. Ini termasuk mengonfigurasi replikasi data yang tepat di beberapa Availability Zone dan menggunakan backend penyimpanan yang berbeda untuk redundansi. Tetapkan prosedur pencadangan reguler untuk data historis, dengan proses pemulihan terdokumentasi untuk berbagai skenario kegagalan. Untuk database deret waktu seperti Prometheus, menerapkan solusi penyimpanan jarak jauh membantu memisahkan masalah penyimpanan dari pengumpulan data dan meningkatkan keandalan sistem secara keseluruhan.

## Manajemen peringatan redundan
<a name="alert-mgmt"></a>

Manajemen peringatan memerlukan perhatian khusus dalam pengaturan HA. Menerapkan pengelola peringatan yang berlebihan memastikan bahwa pemberitahuan kritis mencapai penerima yang dituju bahkan selama kegagalan sistem. Konfigurasikan beberapa saluran notifikasi seperti email, SMS, Slack, dan PagerDuty untuk menyediakan jalur komunikasi alternatif. Gunakan mekanisme deduplikasi peringatan untuk mencegah badai peringatan selama kegagalan sistem sebagian, dan metode pemberitahuan mundur untuk memastikan bahwa peringatan kritis tidak pernah terlewatkan. Menerapkan korelasi peringatan membantu mempertahankan konteks selama skenario failover dan mencegah pemberitahuan duplikat dari sistem yang berlebihan.

## Load balancing dan penemuan layanan
<a name="load-balancing"></a>

Penyeimbangan beban yang tepat sangat penting untuk menjaga layanan pemantauan yang stabil. AWS Application Load Balancer mendistribusikan lalu lintas pemantauan masuk di beberapa titik akhir, dan pemeriksaan kesehatan memastikan bahwa lalu lintas hanya diarahkan ke instans yang sehat. Mekanisme penemuan layanan membantu komponen pemantauan secara otomatis beradaptasi dengan perubahan lingkungan, seperti penambahan node atau layanan baru. Terapkan agen pemantauan secara konsisten di semua node dengan menggunakan DaemonSets untuk memastikan cakupan komprehensif saat skala klaster.

## Pertimbangan HA tambahan
<a name="ha-considerations"></a>

Ketahanan jaringan:
+ Menerapkan jalur jaringan yang berlebihan.
+ Konfigurasikan desain subnet yang tepat di seluruh Availability Zone.
+ Gunakan [AWS Direct Connect](https://docs.aws.amazon.com/whitepapers/latest/aws-vpc-connectivity-options/aws-direct-connect.html)dengan rute cadangan.
+ Konfigurasikan grup keamanan yang sesuai dan daftar kontrol akses jaringan (jaringan ACLs).

Memantau monitor:
+ Menyebarkan sistem pemantauan sekunder.
+ Menerapkan pemantauan lintas wilayah.
+ Konfigurasikan peringatan untuk sistem yang tidak responsif.
+ Uji prosedur failover secara teratur.

Perencanaan kapasitas:
+ Pantau tren penggunaan sumber daya.
+ Menerapkan penskalaan prediktif.
+ Uji kinerja secara teratur.

Manajemen data:
+ Menerapkan kebijakan retensi data.
+ Konfigurasikan agregasi metrik.
+ Merencanakan manajemen siklus hidup data.
+ Optimalkan penyimpanan secara teratur.

Prosedur pemulihan:
+ Proses pemulihan dokumen.
+ Uji pemulihan bencana secara teratur.
+ Terapkan pemulihan otomatis jika memungkinkan.
+ Identifikasi dan terapkan jalur eskalasi yang jelas.

Dengan menerapkan praktik ketersediaan tinggi ini, Anda dapat memastikan bahwa infrastruktur pemantauan Amazon EKS Anda tetap andal dan tangguh, dan Anda memiliki visibilitas berkelanjutan ke lingkungan Kubernetes Anda bahkan selama berbagai skenario kegagalan. Pengujian dan pembaruan rutin untuk konfigurasi HA ini memastikan bahwa konfigurasi tersebut tetap efektif seiring berkembangnya lingkungan.

# Praktik terbaik untuk pemantauan di Amazon EKS
<a name="monitoring-best-practices"></a>

## Pendekatan implementasi strategis
<a name="implementation"></a>

Strategi pemantauan Amazon EKS yang sukses dimulai dengan pendekatan implementasi bertahap yang terencana dengan baik.
+ Mulailah dengan mengidentifikasi dan memantau metrik penting yang secara langsung memengaruhi operasi bisnis dan keandalan aplikasi Anda. Fondasi ini harus mencakup metrik infrastruktur penting, indikator kinerja aplikasi utama, dan metrik keamanan kritis. Secara bertahap memperluas cakupan pemantauan berdasarkan kebutuhan operasional dan pelajaran yang dipetik, dan pastikan bahwa setiap penambahan memberikan nilai yang berarti.
+ Menerapkan proses penerapan otomatis dengan menggunakan alat infrastruktur sebagai kode (IAc) seperti Terraform atau CloudFormation untuk memastikan konsistensi dan pengulangan.
+ Uji dan validasi sistem pemantauan untuk membantu menjaga keandalan dan akurasi.
+ Perbaiki parameter pemantauan secara terus menerus sesuai dengan kebutuhan bisnis yang terus berkembang.

## Manajemen data yang efektif
<a name="data-mgmt"></a>

Manajemen data yang tepat sangat penting untuk mempertahankan solusi pemantauan yang efisien dan hemat biaya.
+ Menerapkan kebijakan penyimpanan data yang jelas yang menyeimbangkan kebutuhan analisis historis dengan biaya penyimpanan.
+ Konfigurasikan laju pengambilan sampel yang sesuai untuk berbagai jenis metrik: frekuensi yang lebih tinggi untuk metrik kritis dan frekuensi yang lebih rendah untuk yang kurang kritis.
+ Gunakan agregasi metrik untuk mengurangi volume data sambil mempertahankan wawasan yang bermakna, terutama untuk analisis tren jangka panjang.
+ Menerapkan penyimpanan log sistematis dan prosedur arsip untuk sistem logging terpusat (seperti CloudWatch Log) untuk mengelola biaya penyimpanan dan menjaga akses ke data penting tetap dapat diakses.
**catatan**  
Rotasi log tingkat kontainer ditangani secara otomatis oleh kubelet di Amazon EKS versi 1.21 atau yang lebih baru.
+ Pertimbangkan untuk menerapkan hot-warm-cold arsitektur penyimpanan log untuk mengoptimalkan kecepatan akses dan efisiensi biaya.

## Konfigurasi dan manajemen peringatan
<a name="alert-config"></a>

Konfigurasi peringatan memerlukan pertimbangan yang cermat untuk mempertahankan efektivitas tanpa menyebabkan kelelahan waspada.
+ Tentukan ambang batas yang jelas dan dapat ditindaklanjuti berdasarkan tujuan tingkat layanan (SLOs) dan pola kinerja historis.
+ Menerapkan sistem tingkat keparahan peringatan berjenjang yang secara jelas membedakan antara masalah kritis yang memerlukan perhatian segera dan hal-hal yang kurang mendesak.
+ Pastikan bahwa peringatan memberikan konteks yang cukup dan informasi yang dapat ditindaklanjuti untuk memfasilitasi penyelesaian masalah dengan cepat.
+ Tetapkan prosedur eskalasi yang jelas dengan kepemilikan dan waktu respons yang ditentukan untuk tingkat keparahan peringatan yang berbeda.
+ Tinjau dan perbaiki konfigurasi peringatan secara teratur untuk membantu menjaga relevansi dan efektivitasnya.

## Optimalisasi sumber daya
<a name="resource"></a>

Pemantauan berkelanjutan pemanfaatan sumber daya sangat penting untuk mempertahankan operasi yang hemat biaya.
+ Menerapkan pemantauan sumber daya yang komprehensif di semua komponen klaster, termasuk node, pod, dan volume persisten.
+ Konfigurasikan penskalaan otomatis berdasarkan pola penggunaan aktual dan persyaratan kinerja untuk memastikan pemanfaatan sumber daya yang efisien sekaligus mempertahankan kinerja.
+ Gunakan tag alokasi biaya untuk melacak konsumsi sumber daya oleh tim, aplikasi, atau lingkungan yang berbeda.
+ Analisis metrik efisiensi sumber daya secara teratur untuk mengidentifikasi peluang pengoptimalan dan menerapkan peningkatan.
+ Pertimbangkan untuk menerapkan alat manajemen biaya untuk melacak dan mengoptimalkan pengeluaran cloud.

## Keamanan
<a name="security"></a>

Pertimbangan keamanan harus menjadi bagian integral dari strategi pemantauan Anda.
+ Menerapkan [prinsip akses hak istimewa terkecil](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_permissions_least_privileges.html) untuk semua komponen pemantauan untuk memastikan bahwa pengguna dan layanan hanya memiliki izin yang mereka butuhkan.
+ Aktifkan pencatatan audit komprehensif untuk melacak semua akses dan perubahan pada sistem pemantauan.
+ Melakukan tinjauan keamanan reguler terhadap konfigurasi pemantauan dan pola akses untuk mengidentifikasi potensi kerentanan.
+ Menerapkan enkripsi untuk data pemantauan sensitif baik dalam perjalanan maupun saat istirahat.
+ Integrasikan pemantauan keamanan dengan sistem informasi keamanan dan manajemen acara (SIEM) yang ada untuk visibilitas keamanan yang komprehensif.

# Pertimbangan pemantauan lanjutan di Amazon EKS
<a name="monitoring-considerations"></a>

Optimalisasi kinerja:
+ Optimalkan interval pengumpulan metrik.
+ Konfigurasikan pola kueri yang efisien.
+ Menerapkan pra-agregasi metrik.
+ Gunakan solusi penyimpanan yang tepat.

Kepatuhan dan tata kelola:
+ Pertahankan jejak audit.
+ Menerapkan pemantauan kepatuhan.
+ Berikan pelaporan kepatuhan secara teratur.
+ Prosedur pemantauan dokumen.

Pemulihan bencana:
+ Cadangkan konfigurasi pemantauan secara teratur.
+ Prosedur pemulihan dokumen.
+ Uji proses pemulihan.

Perbaikan berkelanjutan:
+ Pantau sesi peninjauan secara teratur.
+ Optimalkan siklus kinerja.
+ Perbarui pemantauan berdasarkan insiden.
+ Menggabungkan umpan balik pengguna.

Praktik terbaik ini menyediakan kerangka kerja untuk menerapkan dan memelihara solusi pemantauan yang efektif untuk lingkungan Amazon EKS. Tinjau dan perbarui praktik ini secara teratur agar tetap selaras dengan kebutuhan organisasi dan standar industri Anda. Pemantauan bukanlah pengaturan satu kali — ini adalah proses berkelanjutan yang membutuhkan perhatian dan penyempurnaan secara teratur.