Manajemen kegagalan
Kegagalan tidak bisa dihindari dan semua hal akan mengalami kegagalan seiring berjalannya waktu: mulai dari router hingga diska keras, dari sistem operasi hingga unit memori yang membuat paket TCP mengalami kerusakan, dari kesalahan sementara hingga kegagalan permanen. Ini tidak bisa dihindari, meskipun Anda menggunakan perangkat keras berkualitas tinggi, apalagi komponen dengan biaya termurah - Werner Vogels, CTO - Amazon.com
Kegagalan komponen perangkat keras tingkat rendah menjadi hal yang harus dihadapi setiap hari di sebuah pusat data on-premise. Namun, saat di cloud, Anda harus terlindungi dari sebagian besar jenis kegagalan ini. Misalnya, volume Amazon EBS ditempatkan di Zona Ketersediaan tertentu dan direplikasi secara otomatis di dalamnya guna melindungi Anda dari kegagalan komponen tunggal. Semua volume EBS dirancang untuk ketersediaan 99,999%. Objek Amazon S3 disimpan di minimal tiga Zona Ketersediaan, menyediakan ketahanan objek sebesar 99,999999999% selama satu tahun. Terlepas dari penyedia cloud Anda, potensi kegagalan pasti ada dan bisa berdampak pada beban kerja Anda. Oleh karena itu, Anda harus mengambil langkah-langkah untuk mengimplementasikan ketangguhan jika Anda membutuhkan beban kerja yang bisa diandalkan.
Prasyarat untuk menerapkan praktik terbaik yang didiskusikan di sini adalah Anda harus memastikan bahwa orang-orang yang merancang desain, mengimplementasikan, dan mengoperasikan beban kerja Anda paham tentang tujuan bisnis dan tujuan keandalan untuk mencapai tujuan bisnis ini. Mereka harus paham dan dilatih untuk persyaratan keandalan ini.
Bagian ini menjelaskan praktik terbaik untuk mengelola kegagalan guna mencegah dampaknya pada beban kerja Anda.