SEC10-BP02 Membuat rencana manajemen insiden
Buat rencana untuk membantu Anda merespons insiden, berkomunikasi selama insiden, dan melakukan pemulihan setelah insiden. Misalnya, Anda bisa mulai membuat rencana respons insiden dengan skenario yang paling mungkin dilakukan untuk beban kerja atau organisasi Anda. Sertakan cara berkomunikasi dan eskalasi baik secara internal maupun eksternal.
Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Tinggi
Panduan implementasi
Rencana manajemen insiden sangat penting untuk merespons, memitigasi, dan pulih dari potensi dampak insiden keamanan. Rencana manajemen insiden adalah proses terstruktur untuk mengidentifikasi, memperbaiki, dan merespons insiden keamanan secara tepat waktu.
Cloud memiliki banyak peran dan persyaratan operasional yang sama yang juga ditemukan di lingkungan on-premise. Saat membuat rencana manajemen insiden, penting untuk mempertimbangkan strategi respons dan pemulihan yang paling selaras dengan hasil bisnis dan persyaratan kepatuhan Anda. Sebagai contoh, jika Anda mengoperasikan beban kerja di AWS yang patuh terhadap FedRAMP di Amerika Serikat, ada gunanya Anda mematuhi NIST SP 800-61 Panduan Penanganan Keamanan Komputer
Saat membangun rencana manajemen insiden untuk beban kerja yang beroperasi di AWS, mulailah dengan Model Tanggung Jawab Bersama AWS
Rencana manajemen insiden yang efektif harus diiterasi secara berkelanjutan, dan harus tetap mutakhir sesuai tujuan operasi cloud Anda. Pertimbangkan menggunakan rencana implementasi yang diuraikan di bawah seiring Anda membuat dan mengembangkan rencana manajemen insiden Anda.
-
Berikan edukasi dan pelatihan untuk respons insiden: Saat terjadi penyimpanan dari patokan yang telah Anda tetapkan (misalnya, deployment yang tidak tepat atau kesalahan konfigurasi), Anda mungkin perlu merespons dan menyelidikinya. Untuk keberhasilan dalam melakukannya, Anda harus memahami kontrol dan kemampuan mana yang dapat Anda gunakan untuk keamanan dan respons insiden di dalam lingkungan AWS Anda, serta proses yang perlu Anda pertimbangkan untuk menyiapkan, mengedukasi, dan melatih tim cloud Anda dalam merespons insiden.
-
Playbook dan runbook adalah mekanisme yang efektif untuk membangun konsistensi dalam melatih cara merespons insiden. Mulailah dengan membuat daftar awal prosedur yang sering dijalankan selama respons insiden, dan lanjutkan untuk melakukan iterasi seiring Anda mempelajari atau menggunakan prosedur baru.
-
Sosialisasikan playbook dan runbook melalui game dayterjadwal. Selama game day, simulasikan respons insiden dalam lingkungan terkontrol sehingga tim Anda dapat mengingat cara merespons, dan untuk memverifikasi bahwa tim yang terlibat dalam respons insiden sangat memahami alur kerja. Tinjau hasil simulasi peristiwa untuk mengidentifikasi perbaikan dan menentukan kebutuhan untuk diadakannya pelatihan lebih lanjut atau alat-alat tambahan.
-
Keamanan harus dianggap sebagai tugas setiap orang. Bangun pengetahuan bersama tentang proses manajemen insiden dengan melibatkan semua personel yang normalnya mengoperasikan beban kerja Anda. Ini mencakup semua aspek bisnis Anda: operasi, pengujian, pengembangan, keamanan, operasi bisnis, dan pemimpin bisnis.
-
-
Dokumentasikan rencana manajemen insiden: Dokumentasikan alat dan proses untuk merekam, menindaklanjuti, mengomunikasikan progres, dan menyediakan notifikasi tentang insiden aktif. Tujuan rencana manajemen insiden adalah untuk memverifikasi bahwa operasi normal dipulihkan secepat mungkin, dampak bisnis diminimalkan, dan semua pihak yang terkait mendapatkan informasi terbaru. Contoh insiden mencakup (tetapi tidak terbatas pada) hilangnya atau menurunnya konektivitas jaringan, proses atau API tidak responsif, tugas terjadwal tidak dijalankan (misalnya patching gagal), ketidaktersediaan data atau layanan aplikasi, gangguan layanan yang tidak terencana akibat peristiwa keamanan, kebocoran kredensial, atau kesalahan konfigurasi.
-
Identifikasi pemilik utama yang bertanggung jawab atas penyelesaian insiden, seperti pemilik beban kerja. Miliki panduan yang jelas tentang orang yang akan menjalankan penyelesaian insiden dan bagaimana komunikasi akan ditangani. Saat Anda memiliki lebih dari satu pihak yang berpartisipasi dalam proses penyelesaian insiden, seperti vendor eksternal, pertimbangkan membangun matriks tanggung jawab (RACI), yang menguraikan peran serta tanggung jawab berbagai tim dan individu yang diperlukan untuk penyelesaian insiden.
Matriks RACI berisi detail tentang hal-hal berikut:
-
R: Pihak yang Bertanggung jawab (Responsible) yang melakukan pekerjaan untuk menyelesaikan tugas.
-
A: Pihak atau pemangku kepentingan yang akuntabel (Accountable) dengan otoritas akhir terhadap keberhasilan penyelesaian tugas tertentu.
-
C: Pihak yang menerima konsultasi (Consulted) yang dimintai opini, umumnya sebagai pakar pokok pembahasan.
-
I: Pihak penerima informasi (informed) yang diberi tahu tentang progres, sering kali tentang penyelesaian tugas atau hasil.
-
-
-
Kategorikan insiden: Menetapkan dan mengkategorikan insiden berdasarkan skor tingkat keparahan dan dampak memungkinkan pendekatan terstruktur untuk memeriksa dan menyelesaikan insiden. Rekomendasi berikut ini menggambarkan matriks urgensi dampak-penyelesaian untuk memperhitungkan suatu insiden. Sebagai contoh, insiden dengan dampak rendah dan urgensi rendah dianggap sebagai insiden dengan keparahan rendah.
-
Tinggi (H): Bisnis Anda menerima dampak besar. Fungsi-fungsi vital aplikasi Anda terkait sumber daya AWS tidak tersedia. Dicadangkan untuk peristiwa paling kritis yang memengaruhi sistem produksi. Dampak insiden meningkat dengan cepat karena perbaikan sangat dipengaruhi oleh waktu.
-
Sedang (M): Sebuah layanan atau aplikasi bisnis terkait sumber daya AWS menerima dampak sedang dan berfungsi dengan penurunan kondisi. Aplikasi yang berkontribusi pada sasaran tingkat layanan (SLO) terkena dampak di dalam batas persetujuan tingkat layanan (SLA). Sistem dapat berjalan dengan penurunan kemampuan tanpa berdampak besar pada keuangan dan reputasi.
-
Rendah (L): Fungsi-fungsi non-vital layanan bisnis atau aplikasi Anda terkait sumber daya AWS terkena dampak. Sistem dapat berjalan dengan penurunan kemampuan dengan dampak minimal pada keuangan dan reputasi.
-
-
Standardisasi kontrol keamanan: Tujuan standardisasi kontrol keamanan adalah untuk mencapai konsistensi, keterlacakan, dan kemampuan pengulangan terkait hasil-hasil operasi. Dorong standardisasi di seluruh aktivitas utama yang vital untuk respons insiden, seperti:
-
Manajemen identitas dan akses: Bangun mekanisme untuk mengontrol akses ke data Anda dan mengelola hak akses untuk identitas manusia serta mesin. Perluas manajemen identitas dan akses Anda sendiri ke cloud, menggunakan keamanan terfederasi dengan masuk tunggal (single sign-on) dan hak akses berbasis peran untuk mengoptimalkan manajemen akses. Untuk rekomendasi praktik terbaik dan rencana perbaikan untuk menstandarkan manajemen akses, lihat bagian manajemen identitas dan akses laporan resmi Pilar Keamanan.
-
Manajemen kelemahan: Bangun mekanisme untuk mengidentifikasi kelemahan dalam lingkungan AWS Anda yang kemungkinan dapat dimanfaatkan oleh penyerang untuk mengganggu dan menyalahgunakan sistem Anda. Implementasikan kontrol deteksi dan preventif sebagai mekanisme keamanan untuk merespons dan memitigasi potensi dampak insiden keamanan. Standarkan proses seperti pemodelan ancaman sebagai bagian dari pembangunan infrastruktur dan siklus hidup penyampaian aplikasi Anda.
-
Manajemen konfigurasi: Tetapkan konfigurasi standar dan otomatiskan prosedur untuk men-deploy sumber daya di AWS Cloud. Menstandarkan pengadaan infrastruktur dan sumber daya dapat membantu memitigasi risiko kesalahan konfigurasi melalui deployment yang salah atau kesalahan konfigurasi manusiawi yang tidak disengaja. Lihat bagian prinsip desain laporan resmi Pilar Keunggulan Operasional untuk mendapatkan panduan dan rendana perbaikan untuk mengimplementasikan kontrol ini.
-
Pencatatan log dan pemantauan untuk kontrol audit: Implementasikan mekanisme untuk memantau sumber daya Anda guna mendeteksi kegagalan, penurunan kinerja, dan masalah keamanan. Standardisasi kontrol ini juga menyediakan jejak audit aktivitas yang terjadi dalam sistem Anda, sehingga mempercepat pemeriksaan dan perbaikan masalah. Praktik terbaik di dalam SEC 4 (“Bagaimana cara mendeteksi dan menyelidiki peristiwa keamanan?”) menyediakan panduan untuk mengimplementasikan kontrol ini.
-
-
Gunakan otomatisasi: Otomatisasi memungkinkan penyelesaian insiden yang cepat dalam skala besar. AWS menyediakan sejumlah layanan untuk mengotomatisasi dalam konteks strategi respons insiden. Fokus pada penemuan keseimbangan yang tepat antara otomatisasi dan campur tangan manual. Seiring Anda membangun respons insiden di dalam playbook dan runbook, otomatiskan langkah-langkah yang dapat diulang. Gunakan layanan AWS seperti Manajer Insiden AWS Systems Manager untuk menyelesaikan insiden IT lebih cepat
. Gunakan alat developer untuk menyediakan kontrol versi dan otomatiskan Amazon Machine Images (AMI) dan deployment Infrastruktur sebagai Kode (IaC) tanpa campur tangan manusia. Jika memungkinkan, otomatiskan deteksi dan penilaian kepatuhan menggunakan layanan terkelola seperti Amazon GuardDuty, Amazon Inspector, AWS Security Hub, AWS Config, dan Amazon Macie. Otomatiskan kemampuan deteksi dengan machine learning seperti Amazon DevOps Guru untuk mendeteksi masalah pola operasi yang tidak normal sebelum terjadi. -
Lakukan analisis akar masalah dan tindak lanjuti pelajaran yang didapatkan: Implementasikan mekanisme untuk menyerap pelajaran yang didapatkan sebagai bagian dari peninjauan respons pascainsiden. Saat akar masalah suatu insiden mengungkap kerusakan yang lebih besar, kesalahan desain, kesalahan konfigurasi, atau kemungkinan kambuh, insiden ini diklasifikasikan sebagai masalah. Pada kasus tersebut, analisis dan selesaikan masalah untuk meminimalkan gangguan pada operasi normal.
Sumber daya
Dokumen terkait:
Video terkait:
Contoh terkait: