OPS10-BP02 Menjalankan proses untuk setiap peringatan - AWS Well-Architected Framework

OPS10-BP02 Menjalankan proses untuk setiap peringatan

Menetapkan proses yang jelas dan terdefinisi untuk setiap peringatan di dalam sistem Anda sangat penting untuk manajemen insiden yang efektif dan efisien. Praktik ini memastikan bahwa setiap peringatan menghasilkan respons spesifik yang dapat ditindaklanjuti, sehingga meningkatkan keandalan dan responsivitas operasi Anda.

Hasil yang diinginkan: Setiap peringatan memulai rencana respons yang spesifik dan terdefinisi dengan baik. Jika memungkinkan, respons dilakukan secara otomatis, dengan kepemilikan yang jelas dan jalur eskalasi yang ditentukan. Peringatan ditautkan ke basis pengetahuan yang mutakhir sehingga setiap operator dapat merespons secara konsisten dan efektif. Respons diberikan secara cepat dan seragam, sehingga meningkatkan efisiensi dan keandalan operasional.

Antipola umum:

  • Peringatan tidak memiliki proses respons yang telah ditentukan sebelumnya, sehingga menyebabkan resolusi yang seadanya dan tertunda.

  • Jumlah peringatan yang terlalu banyak menyebabkan terabaikannya peringatan penting.

  • Peringatan ditangani secara tidak konsisten karena tidak adanya kepemilikan dan tanggung jawab yang jelas.

Manfaat menjalankan praktik terbaik ini:

  • Mengurangi kewalahan akibat peringatan dengan hanya memunculkan peringatan yang dapat ditindaklanjuti.

  • Penurunan rata-rata waktu resolusi (MTTR) untuk masalah operasional.

  • Penurunan rata-rata waktu untuk menyelidiki (MTTI), yang membantu mengurangi MTTR.

  • Peningkatan kemampuan untuk menskalakan respons operasional.

  • Peningkatan konsistensi dan keandalan dalam menangani peristiwa operasional.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Tinggi

Panduan implementasi

Untuk memiliki proses per peringatan, diperlukan pembuatan rencana respons yang jelas untuk setiap peringatan, otomatisasi respons apabila memungkinkan, dan penyempurnaan proses tersebut secara berkelanjutan berdasarkan umpan balik operasional dan perubahan persyaratan.

Langkah implementasi

Diagram berikut ini menggambarkan alur kerja manajemen insiden di dalam Manajer Insiden AWS Systems Manager. Ini dirancang untuk merespons masalah operasional dengan cara menciptakan insiden secara otomatis sebagai respons terhadap peristiwa tertentu dari Amazon CloudWatch atau Amazon EventBridge. Ketika insiden dibuat, baik secara otomatis maupun manual, Incident Manager memusatkan manajemen insiden, mengatur informasi sumber daya AWS yang relevan, dan memulai rencana respons yang telah ditentukan sebelumnya. Ini mencakup menjalankan runbook Otomatisasi Systems Manager untuk tindakan cepat, serta membuat item kerja operasional induk di OpsCenter untuk melacak tugas dan analisis terkait. Proses yang efisien ini mempercepat dan mengoordinasikan respons insiden di seluruh lingkungan AWS Anda.

Diagram alur yang menggambarkan cara kerja Incident Manager - Amazon Q Developer in chat applications, rencana eskalasi dan kontak, dan runbook mengalir ke rencana respons, yang mengalir ke insiden dan analisis. Amazon CloudWatch juga mengalir ke rencana respons.

  1. Gunakan alarm komposit: Buat alarm komposit di CloudWatch untuk mengelompokkan alarm terkait, sehingga mengurangi kebisingan dan memungkinkan respons yang lebih bermakna.

  2. Integrasikan alarm Amazon CloudWatch dengan Incident Manager Konfigurasikan alarm CloudWatch untuk membuat insiden secara otomatis di Manajer Insiden AWS Systems Manager.

  3. Integrasikan Amazon EventBridge dengan Incident Manager: Buat aturan EventBridge untuk bereaksi terhadap peristiwa dan membuat insiden menggunakan rencana respons yang ditentukan.

  4. Persiapkan insiden di Incident Manager:

    • Tetapkan rencana respons mendetail di Incident Manager untuk setiap jenis peringatan.

    • Buat saluran obrolan melalui Amazon Q Developer in chat applications yang terhubung ke rencana respons di Incident Manager, sehingga memfasilitasi komunikasi waktu nyata selama insiden di seluruh platform seperti Slack, Microsoft Teams, dan Amazon Chime.

    • Sertakan runbook Otomatisasi Systems Manager di dalam Incident Manager untuk mendorong respons otomatis terhadap insiden.

Sumber daya

Praktik terbaik terkait:

Dokumen terkait:

Video terkait:

Contoh terkait: