View a markdown version of this page

Cara kerja pemantauan dan manajemen insiden untuk Amazon EKS di AMS Accelerate - Panduan Pengguna AMS Accelerate

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cara kerja pemantauan dan manajemen insiden untuk Amazon EKS di AMS Accelerate

Generasi: Sebagai bagian dari pemantauan orientasi dan manajemen insiden untuk EKS, AMS mengonfigurasi pemantauan dasar untuk kluster Amazon EKS yang Anda pilih di akun terkelola. AMS menggunakan kombinasi Layanan Terkelola Amazon untuk aturan manajer peringatan Prometheus dan aturan peristiwa CloudWatch Amazon untuk mengonfigurasi pemantauan dasar. Server Prometheus yang dikonfigurasi AMS di kluster Anda akan menggores dan menulis metrik Prometheus dari jarak jauh ke Layanan Terkelola Amazon untuk titik akhir Prometheus di Wilayah yang sama. Konfigurasi pemantauan dasar menghasilkan peringatan ketika aturan manajer peringatan Prometheus dipicu atau peristiwa dihasilkan. CloudWatch

Agregasi: AMS mengirimkan semua peringatan yang dihasilkan sumber daya Anda ke sistem pemantauan AMS dengan mengarahkannya ke topik Layanan Pemberitahuan Sederhana Amazon yang dikelola oleh AMS.

Pemrosesan dan analisis dampak: AMS menganalisis peringatan dan kemudian memprosesnya berdasarkan potensi dampaknya. AMS mengklasifikasikan peringatan sebagai berikut:

  • Peringatan dengan dampak pelanggan yang diketahui: Untuk peringatan ini, AMS membuat laporan insiden baru menggunakan proses manajemen insiden.

  • Peringatan dengan dampak pelanggan yang tidak pasti: Untuk peringatan ini, AMS mengirimkan laporan insiden. Dalam banyak kasus, peringatan ini meminta Anda untuk memverifikasi dampaknya sebelum AMS dapat mengambil tindakan. Untuk peringatan semacam itu, AMS mengirimkan pemberitahuan peringatan dengan detailnya dan memeriksa apakah peringatan memerlukan tindakan mitigasi. AMS menyediakan opsi untuk mengurangi tindakan dalam notifikasi. Jika balasan Anda mengonfirmasi bahwa peringatan tersebut adalah insiden, AMS kemudian memicu pembuatan laporan insiden baru dan memulai proses manajemen insiden. Setiap pemberitahuan layanan yang menerima tanggapan “tidak ada dampak pelanggan” atau tidak ada tanggapan sama sekali selama tiga hari ditandai sebagai diselesaikan. Juga, peringatan yang sesuai ditandai sebagai diselesaikan.

  • Peringatan tanpa dampak pelanggan: Jika, setelah evaluasi, AMS menentukan bahwa peringatan tidak memiliki dampak pelanggan, peringatan ditutup.

Matriks tanggung jawab AMS (RACI)

Matriks AMS yang bertanggung jawab, bertanggung jawab, dikonsultasikan, dan diinformasikan, atau RACI memberikan tanggung jawab utama kepada pelanggan atau AMS untuk berbagai kegiatan. Tabel f ollowing memberikan gambaran umum tentang tanggung jawab pelanggan dan AMS untuk aktivitas dalam aplikasi yang menggunakan Pemantauan dan Manajemen Insiden untuk Amazon EKS.

  • R adalah singkatan dari pihak yang bertanggung jawab yang melakukan pekerjaan untuk mencapai tugas.

  • A adalah singkatan dari pihak yang bertanggung jawab.

  • C adalah singkatan dari konsultasikan; pihak yang pendapatnya dicari, biasanya sebagai ahli materi pelajaran; dan dengan siapa ada komunikasi bilateral.

  • Saya singkatan dari Informed; pihak yang diinformasikan tentang kemajuan, seringkali hanya pada penyelesaian tugas atau deliverable.

Aktifitas Pelanggan AMS

Penemuan untuk persyaratan AMS

I

R

Aktifkan izin AMS (RBAC) untuk akses klaster

R

C

Instal Amazon EC2 Systems Manager Agent di node pekerja jika belum ada

R C

Terapkan komponen on-cluster AMS, seperti Prometheus, Prometheus Node Exporter, dan di namespace AMS, sesuai kebutuhan. kube-state-metrics

C R

Menyediakan Layanan Terkelola Amazon untuk Prometheus di bidang kontrol AMS

I R

Konfigurasikan manajer peringatan Prometheus di bidang kontrol AMS

I R

Menyediakan template Grafana yang Dikelola Amazon dan bantu konfigurasi

C R

Aktifkan Pemantauan Log Audit GuardDuty EKS

C R

Aktifkan pencatatan pesawat kontrol Amazon EKS

I R

Pantau kesehatan dan kinerja pesawat kontrol Amazon EKS

I R

Pantau kesehatan dan kinerja klaster Amazon EKS Anda (cluster, node, beban kerja, pod, API Server, dan CoreDNS)

I R

Peringatan triase dan berikan respons insiden untuk Amazon EKS

I R

Jalankan perintah diagnostik selama insiden

I R

Menganalisis log selama insiden (bidang kontrol dan log pod)

I R

Respons insiden untuk masalah AWS jaringan

I R

Menanggapi temuan GuardDuty EKS Audit Log Monitoring

I R

Memberikan panduan pelanggan tentang tindakan untuk memulihkan insiden jika memungkinkan

I R