OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah

Kemampuan untuk mengelola peristiwa, insiden, dan masalah secara efisien adalah kunci untuk menjaga kesehatan dan kinerja beban kerja. Sangat penting untuk mengenali dan memahami perbedaan antara elemen-elemen ini untuk mengembangkan strategi respons dan resolusi yang efektif. Dengan membentuk dan mengikuti proses yang terdefinisi dengan baik untuk setiap aspek, tim Anda dapat dengan cepat dan efektif menangani setiap tantangan operasional yang muncul.

Hasil yang diinginkan: Organisasi Anda mengelola peristiwa operasional, insiden, dan masalah secara efektif melalui proses yang terdokumentasi dengan baik dan tersimpan secara terpusat. Proses tersebut diperbarui secara konsisten untuk mencerminkan perubahan, merampingkan proses penanganan, dan mempertahankan keandalan layanan serta kinerja beban kerja yang tinggi.

Antipola umum:

Anda merespons peristiwa secara reaktif, bukan proaktif.
Pendekatan yang tidak konsisten diambil untuk berbagai jenis peristiwa atau insiden berbeda.
Organisasi Anda tidak menganalisis dan belajar dari insiden untuk mencegah kejadian di masa depan.

Manfaat menjalankan praktik terbaik ini:

Proses respons yang efisien dan terstandardisasi.
Berkurangnya dampak insiden pada layanan dan pelanggan.
Resolusi masalah yang lebih cepat.
Perbaikan berkelanjutan dalam proses operasional.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Tinggi

Panduan implementasi

Menerapkan praktik terbaik ini berarti Anda melacak peristiwa beban kerja. Anda memiliki proses untuk menangani insiden dan masalah. Proses ini didokumentasikan, dibagikan, dan sering diperbarui. Masalah diidentifikasi, diprioritaskan, dan diperbaiki.

Memahami peristiwa, insiden, dan masalah

Peristiwa: Sebuah peristiwa adalah pengamatan suatu tindakan, kejadian, atau perubahan status. Peristiwa dapat direncanakan atau tidak direncanakan dan dapat berasal dari dalam atau luar beban kerja.
Insiden: Insiden adalah peristiwa yang memerlukan respons, seperti gangguan yang tidak terencana atau penurunan kualitas layanan. Insiden mewakili gangguan yang membutuhkan perhatian cepat untuk memulihkan operasi beban kerja yang normal.
Masalah: Masalah adalah penyebab yang mendasari satu insiden atau lebih. Identifikasi dan penyelesaian masalah melibatkan penggalian insiden secara lebih mendalam untuk mencegah kejadian di masa mendatang.

Langkah implementasi

Peristiwa

Pantau peristiwa:
- Implementasikan observabilitas dan manfaatkan observabilitas beban kerja.
- Tindakan pemantauan yang dilakukan oleh pengguna, peran, atau layanan AWS dicatat sebagai peristiwa di dalam AWS CloudTrail.
- Respons perubahan operasional di dalam aplikasi Anda dalam waktu nyata dengan Amazon EventBridge.
- Lakukan penilaian, pemantauan, dan perekaman perubahan konfigurasi sumber daya secara berkelanjutan dengan AWS Config.
Ciptakan proses:
- Kembangkan proses untuk menilai peristiwa mana yang signifikan dan memerlukan pemantauan. Ini melibatkan pengaturan ambang batas dan parameter untuk aktivitas normal dan abnormal.
- Tentukan kriteria eskalasi suatu peristiwa menjadi insiden. Kriteria ini dapat didasarkan pada tingkat keparahan, dampak pada pengguna, atau penyimpangan dari perilaku yang diperkirakan.
- Tinjau proses pemantauan dan respons peristiwa secara rutin. Ini mencakup analisis insiden masa lalu, penyesuaian ambang batas, dan penyempurnaan mekanisme pembuatan peringatan.

Insiden

Respons insiden:
- Gunakan wawasan dari alat observabilitas untuk mengidentifikasi dan merespons insiden dengan cepat.
- Implementasikan AWS Systems Manager Ops Center untuk mengagregasi, mengatur, dan memprioritaskan item dan insiden operasional.
- Gunakan layanan seperti Amazon CloudWatch dan AWS X-Ray untuk analisis dan pemecahan masalah yang lebih mendalam.
- Pertimbangkan AWS Managed Services (AMS) untuk manajemen insiden yang ditingkatkan, dengan memanfaatkan kemampuan proaktif, preventif, dan detektifnya. AMS memperluas dukungan operasional dengan layanan seperti pemantauan, deteksi dan respons insiden, serta manajemen keamanan.
- Pelanggan Enterprise Support dapat menggunakan Deteksi dan Respons Insiden AWS, yang menyediakan pemantauan proaktif berkelanjutan dan manajemen insiden untuk beban kerja produksi.
Buat proses manajemen insiden:
- Tetapkan proses manajemen insiden terstruktur, termasuk peran yang jelas, protokol komunikasi, dan langkah-langkah resolusi.
- Integrasikan manajemen insiden dengan alat-alat seperti Amazon Q Developer in chat applications untuk respons dan koordinasi yang efisien.
- Kategorikan insiden berdasarkan tingkat keparahan, dengan rencana respons insiden yang telah ditetapkan sebelumnya untuk setiap kategori.
Pelajari dan tingkatkan:
- Jalankan analisis pascainsiden untuk memahami akar masalah dan efektivitas resolusi.
- Terus perbarui dan tingkatkan rencana respons berdasarkan tinjauan dan praktik yang berkembang.
- Dokumentasikan dan bagikan pelajaran yang diperoleh ke seluruh tim untuk meningkatkan ketahanan operasional.
- Pelanggan Enterprise Support dapat meminta Lokakarya Manajemen Insiden dari Manajer Akun Teknis mereka. Lokakarya berpemandu ini akan menguji rencana respons insiden yang ada dan membantu Anda mengidentifikasi area yang perlu ditingkatkan.

Masalah

Identifikasi masalah:
- Gunakan data dari insiden sebelumnya untuk mengidentifikasi pola berulang yang mungkin menandakan adanya masalah sistemik yang lebih mendalam.
- Manfaatkan alat seperti AWS CloudTrail dan Amazon CloudWatch untuk menganalisis tren dan mengungkap masalah yang mendasarinya.
- Libatkan tim lintas fungsi, termasuk tim operasional, pengembangan, dan unit bisnis, untuk mendapatkan perspektif yang beragam tentang akar masalah.
Buat proses manajemen masalah:
- Kembangkan proses terstruktur untuk manajemen masalah, dengan fokus pada solusi jangka panjang, bukan perbaikan cepat.
- Sertakan teknik-teknik analisis akar masalah (RCA) untuk menyelidiki dan memahami penyebab dasar insiden.
- Perbarui kebijakan operasional, prosedur, dan infrastruktur berdasarkan temuan untuk mencegah kejadian terulang.
Terus lakukan perbaikan:
- Pupuk budaya pembelajaran dan perbaikan yang konstan, dengan mendorong tim untuk mengidentifikasi dan mengatasi potensi masalah secara proaktif.
- Tinjau dan revisi proses manajemen masalah dan alat untuk menyelaraskan dengan lanskap bisnis dan teknologi yang berkembang.
- Bagikan wawasan dan praktik terbaik ke seluruh organisasi untuk membangun lingkungan operasional yang lebih tangguh dan efisien.
Libatkan AWS Dukungan:
- Gunakan sumber daya dukungan AWS, seperti AWS Trusted Advisor, untuk panduan proaktif dan rekomendasi pengoptimalan.
- Pelanggan Enterprise Support dapat mengakses program khusus seperti AWS Countdown untuk mendapatkan dukungan selama peristiwa kritis.

Tingkat upaya untuk rencana implementasi: Sedang

Sumber daya

Praktik terbaik terkait:

Dokumen terkait:

Video terkait:

Contoh terkait:

Layanan terkait:

Amazon EventBridge

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

OPS 10. Bagaimana cara mengelola peristiwa operasi dan beban kerja?

OPS10-BP02 Menjalankan proses untuk setiap peringatan