Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Tahap 5: Menanggapi dan belajar
Saat Anda menjalankan startup, proses post-mortem yang kompleks dapat memperlambat tim Anda. Bab ini mengeksplorasi bagaimana belajar dari insiden tanpa mengubahnya menjadi latihan birokrasi.
Integrasikan pembelajaran insiden ke dalam ritme Anda yang ada. Jika tim Anda sudah mengadakan pertemuan rutin, gunakan sepuluh menit untuk membahas insiden baru-baru ini. Fokus pada pertanyaan praktis, seperti:
-
Apakah runbook membantu?
-
Apakah peringatan terjadi pada waktu yang tepat?
-
Bisakah layanan AWS terkelola mencegah hal ini?
Tetap fokus pada tindakan, bukan menyalahkan. Dalam sebuah startup, Anda tidak membangun sistem yang sempurna; Anda sedang membangun satu yang menjadi lebih baik setiap kali terjadi kesalahan.
Anda dapat menggunakan sistem tiket Anda untuk melacak insiden; tidak perlu alat khusus. Buat template sederhana yang mencakup timeline insiden, dampak pelanggan, langkah pemulihan yang diambil, dan pelajaran yang dipetik. Kamera ini menjadi memori institusional jika Anda menggunakannya secara aktif. Tinjau insiden masa lalu selama orientasi untuk mempercepat insinyur baru. Referensi mereka dalam ulasan arsitektur saat merancang sistem serupa. Tarik mereka ke hari permainan untuk membuat skenario kegagalan realistis berdasarkan peristiwa aktual. Template menangkap apa yang terjadi, dan penggunaan reguler mengubahnya menjadi pembelajaran organisasi.
Saat startup tumbuh, pola muncul. Mungkin komponen tertentu gagal lebih sering, atau mungkin jenis perubahan tertentu menyebabkan masalah. Gunakan pola-pola ini untuk memandu investasi ketahanan. Jika kegagalan database menyebabkan masalah, pertimbangkan untuk meningkatkan beberapa pengaturan Availability Zone Anda. Jika gangguan layanan pihak ketiga adalah tema umum, pertimbangkan untuk meningkatkan pemutus sirkuit.
Tujuannya bukan untuk mencegah setiap kegagalan yang mungkin terjadi. Itu tidak mungkin dan akan memperlambat Anda terlalu banyak. Tujuannya adalah untuk belajar dengan cepat, beradaptasi dengan cepat, dan menjaga aplikasi cukup andal saat Anda berkembang pesat. Gunakan setiap insiden sebagai kesempatan untuk membuat sistem Anda sedikit lebih tangguh, tim Anda sedikit lebih berpengetahuan, dan pelanggan Anda sedikit lebih percaya diri dalam layanan Anda. Untuk startup, kecepatan dan pembelajaran mengalahkan kesempurnaan. Buat proses ringan yang membantu Anda belajar dari insiden tanpa memperlambat inovasi. Praktik ketahanan terbaik adalah yang benar-benar digunakan tim Anda.