View a markdown version of this page

Uji beban kerja onboard di Deteksi dan Respons Insiden - Panduan Pengguna Deteksi dan Respons Insiden AWS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Uji beban kerja onboard di Deteksi dan Respons Insiden

Setelah Alarm Tertelan selesai, AWS Incident Detection and Response memungkinkan pemantauan beban kerja Anda dan mengirimkan konfirmasi. Go-Live Beban kerja Anda dipantau secara aktif dari titik ini ke depan.

Pengujian alarm memvalidasi bahwa alarm onboard Anda menggunakan Deteksi dan Respons Insiden AWS seperti yang diharapkan, memicu runbook yang sesuai, dan tindakan lain yang diinginkan, seperti pembuatan casing otomatis jika Anda memilihnya selama penggunaan alarm.

Pengujian bersifat opsional tetapi sangat disarankan. Anda bertanggung jawab untuk memvalidasi pengaturan respons Anda sebelum insiden nyata terjadi.

Opsi pengujian

AWS Incident Detection and Response menawarkan dua opsi pengujian.

Opsi 1: Dijadwalkan GameDay (disarankan)

Terjadwal GameDay adalah simulasi end-to-end langsung dari apa yang mungkin terjadi selama insiden nyata. AWS Incident Detection and Response mengikuti langkah-langkah runbook yang ditentukan untuk memberi Anda wawasan tentang bagaimana insiden nyata dapat terjadi. GameDay Ini adalah kesempatan bagi Anda untuk mengajukan pertanyaan atau menyempurnakan instruksi untuk meningkatkan keterlibatan.

Untuk menjadwalkan a GameDay, selesaikan langkah-langkah berikut:
  1. Beri tahu Deteksi dan Respons Insiden AWS dengan tanggal yang diinginkan dan jendela waktu 1 jam, termasuk zona waktu. Berikan setidaknya 48 jam lead time.

  2. Rencanakan sumber daya untuk GameDay, termasuk SRE/Ops tim Anda dan kontak eskalasi.

GameDay jadwal:

  1. Anda dan AWS Incident Detection and Response bergabung dalam panggilan.

  2. Anda menonaktifkan tindakan alarm, jika berlaku.

  3. Anda secara manual mengatur alarm Anda ke status ALARM menggunakan instruksi diCara menguji alarm Anda.

  4. Deteksi dan Respons Insiden AWS mengonfirmasi penerimaan pemberitahuan alarm.

  5. AWS Incident Detection and Response merespons alarm dan bergabung dengan bridge yang ditentukan dalam runbook Anda.

  6. Anda dan AWS Incident Detection and Response mengonfirmasi GameDay hasilnya.

Opsi 2: Pengujian alarm offline

Anda dapat menguji alarm Anda secara independen kapan saja tanpa menjadwalkan panggilan. Memicu alarm melibatkan Deteksi dan Respons Insiden AWS sesuai dengan runbook Anda, seperti halnya selama insiden nyata.

Untuk melakukan pengujian alarm offline, selesaikan langkah-langkah berikut:
  1. Untuk mencegah tindakan yang tidak diinginkan, nonaktifkan tindakan CloudWatch alarm Amazon apa pun.

  2. Picu alarm Anda menggunakan instruksi diCara menguji alarm Anda.

  3. Dalam 5 menit, kasus dukungan dibuat atas nama Anda dan AWS Incident Detection and Response melibatkan Anda sebagaimana ditentukan dalam runbook Anda.

  4. Beri tahu Manajer Insiden bahwa Anda sedang melakukan pengujian alarm offline.

  5. Manajer Insiden mengonfirmasi perubahan status alarm mana yang diterima dan memvalidasi pengaturan respons.

Jika kasus dukungan tidak dibuat dalam waktu 5 menit, kirimkan permintaan insiden untuk melibatkan Deteksi dan Respons Insiden AWS secara manual untuk pemecahan masalah.

Cara menguji alarm Anda

CloudWatch Alarm Amazon

catatan

AWS Identity and Access Management Pengguna atau peran yang Anda gunakan untuk pengujian alarm harus memiliki cloudwatch:SetAlarmState izin.

Gunakan AWS Command Line Interface atau AWS CloudShelluntuk mengatur alarm Anda secara manual ke status ALARM. Perintah ini mengubah status alarm tanpa memengaruhi beban kerja Anda.

Untuk mencegah tindakan yang tidak diinginkan, misalnya instans Amazon EC2 dimulai ulang, nonaktifkan tindakan alarm CloudWatch apa pun sebelum Anda mengubah status alarm. Anda dapat mengaktifkan kembali tindakan CloudWatch alarm setelah pengujian selesai. Untuk mempelajari selengkapnya tentang menonaktifkan atau mengaktifkan tindakan alarm, lihat DisableAlarmActionsdan EnableAlarmActionsdi Referensi Amazon CloudWatch API.

Nonaktifkan tindakan alarm:

aws cloudwatch disable-alarm-actions --alarm-names "ExampleAlarm" --region us-east-1

Setel status alarm ke ALARM:

aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --region us-east-1

Re-enable tindakan alarm setelah pengujian:

aws cloudwatch enable-alarm-actions --alarm-names "ExampleAlarm" --region us-east-1

Status alarm kembali ke OK secara otomatis dalam beberapa detik.

Alarm komposit

set-alarm-statePerintah tidak menjamin bahwa alarm komposit kembali ke status OK. Sebagai praktik terbaik, verifikasi status alarm komposit setelah pengujian. Untuk mengatur ulang alarm komposit secara manual, gunakan perintah berikut:

aws cloudwatch set-alarm-state --alarm-name "ExampleCompositeAlarm" --state-value OK --state-reason "Testing AWS Incident Detection and Response" --region us-east-1

Untuk mempelajari selengkapnya tentang mengubah status CloudWatch alarm secara manual, lihat SetAlarmStatedi Referensi Amazon CloudWatch API.

Untuk mempelajari lebih lanjut tentang izin yang diperlukan untuk operasi CloudWatch API, lihat referensi CloudWatch izin Amazon.

Third-party Alarm APM

Beban kerja yang menggunakan alat Application Performance Monitoring (APM) pihak ketiga, seperti Datadog, Splunk, New Relic, atau Dynatrace, memerlukan instruksi yang berbeda untuk mensimulasikan alarm.

  1. Nonaktifkan tindakan alarm di APM Anda untuk mencegah tindakan yang tidak diinginkan.

  2. Ubah ambang alarm atau operator perbandingan Anda untuk memaksa alarm ke status ALARM. Ini memicu payload ke AWS Incident Detection and Response.

  3. Setelah pengujian selesai, putar kembali ambang batas atau perubahan operator perbandingan untuk mengembalikan alarm ke status OK.

Hasil utama

Setelah pengujian berhasil:

  • Konsumsi alarm dikonfirmasi dan konfigurasi alarm Anda benar.

  • Alarm diterima oleh AWS Incident Detection and Response.

  • Kasus dukungan dibuat dan kontak yang Anda tentukan diberi tahu.

  • Deteksi dan Respons Insiden AWS melibatkan Anda dengan cara konferensi yang ditentukan.

  • Semua alarm dan kasus dukungan yang dihasilkan selama pengujian diselesaikan.

Pertanyaan umum

Apakah pengujian alarm wajib?

Tidak. Pengujian bersifat opsional tetapi sangat disarankan untuk memvalidasi pengaturan respons ujung ke ujung Anda sebelum insiden nyata terjadi.

Apakah beban kerja saya akan terpengaruh?

Tidak. Namun, selama pengujian tindakan alarm apa pun yang dikonfigurasi pada alarm Anda dipicu kecuali Anda menonaktifkannya. Nonaktifkan tindakan alarm sebelum pengujian untuk mencegah dampak yang tidak diinginkan.

Siapa yang diberitahu selama pengujian?

Selama jadwal GameDay, semua kontak dan jalur eskalasi di runbook Anda dihubungi untuk verifikasi. Selama pengujian alarm offline, hanya kontak awal yang ditentukan selama orientasi alarm yang diberitahukan.

Dapatkah saya membalas melalui email ke pembaruan kasus?

Tidak. Salinan email korespondensi Dukungan kasus dikirim dari alamat tanpa balasan. Untuk memperbarui kasus, gunakan file AWS Support Center Console.

Bagaimana cara meminta GameDay setelah go-live?

Balas kasus dukungan orientasi Anda yang ada, jika ada, atau buatMeminta perubahan pada beban kerja onboard di Deteksi dan Respons Insiden.