Operasi Terpadu Memulai: Alarm kritis onboard untuk manajemen insiden yang cepat

Untuk membantu memberi tahu Anda tentang insiden kritis dengan cepat, selesaikan langkah-langkah berikut untuk mengaktifkan alarm Anda ke Deteksi dan Respons Insiden AWS

Tentukan dan konfigurasikan alarm kritis Anda untuk manajemen insiden yang cepat. Untuk informasi selengkapnya, lihat Menentukan dan mengonfigurasi alarm di Deteksi dan Respons Insiden di Panduan Pengguna Deteksi Insiden dan Respons.
1. Untuk langkah-langkah mengatur alarm menggunakan Amazon CloudWatch, lihat Menentukan dan mengonfigurasi alarm di Deteksi dan Respons Insiden di Panduan Pengguna Deteksi Insiden dan Respons. Untuk AWS rekomendasi tentang jenis alarm kritis untuk berbagai jenis Layanan AWS, lihat Deteksi dan Respon Insiden (IDR). Hubungi tim Operasi AWS Terpadu Anda jika Anda ingin AWS mengotomatiskan pembuatan AWS alarm penting untuk sumber daya yang ditandai. AWS
2. Untuk mengalihkan atau menyerap alarm penting dari alat APM pihak ke-3 dengan EventBridge integrasi Amazon langsung, seperti,, dan seterusnya DataDog NewRelic, lihat alarm Ingest dari yang APMs memiliki integrasi langsung dengan Amazon EventBridge dalam Panduan Pengguna Deteksi dan Respons AWS Insiden. Anda harus menerapkan serangkaian AWS sumber daya (AWS Lambda dan aturan bus EventBridge acara Amazon) untuk mengubah dan mengarahkan alarm (peristiwa) Anda ke Deteksi dan Respons AWS Insiden. Tim Operasi AWS Terpadu Anda dapat membantu menyediakan CloudFormation template untuk menginstal sumber daya ini.
3. Arahkan ulang atau konsumsi alarm kritis dari alat pemantauan kustom Anda melalui alat APM pihak ketiga yang tidak memiliki integrasi langsung dengan Amazon EventBridge, seperti,, dan DataDog sebagainya NewRelic. Untuk informasi selengkapnya, lihat Alarm ingest dari APMs yang memiliki integrasi langsung dengan Amazon EventBridge di Panduan Pengguna Deteksi AWS Insiden dan Respons. Anda harus menerapkan serangkaian AWS sumber daya ( AWS Lambda fungsi API Gateway, dan aturan bus EventBridge peristiwa Amazon) untuk mengubah dan mengarahkan alarm (peristiwa) Anda ke Deteksi dan Respons AWS Insiden. Tim Operasi AWS Terpadu Anda dapat membantu menyediakan CloudFormation template untuk menginstal sumber daya ini.
Berikan detail arsitektur beban kerja, informasi titik kontak, dan informasi buku runbook tentang tindakan mitigasi untuk alarm kritis. Caranya, lakukan langkah-langkah berikut:
1. Unduh dan lengkapi kuesioner orientasi Beban Kerja Deteksi dan Respons AWS Insiden untuk setiap beban kerja atau aplikasi kritis dan kuesioner konsumsi Alarm yang terkait dengan setiap beban kerja unik.
  
  Informasi dalam kuesioner ini membantu AWS tim mengembangkan runbook remediasi insiden. Runbook ini memungkinkan tindakan yang tepat diambil untuk memecahkan masalah dan memulihkan alarm kritis dengan cepat sebelum menyebabkan downtime bisnis. Untuk contoh dan informasi sampel, lihat Kuesioner orientasi beban kerja dan konsumsi alarm di Deteksi dan Respons Insiden. AWS
Menyediakan akses ke alarm kritis Anda ke Deteksi dan Respons AWS Insiden
1. Terapkan peran AWSServiceRoleForHealth_EventProcessor terkait layanan (SLR) dalam Akun AWS menjalankan beban kerja kritis untuk dipantau oleh tim manajemen insiden. AWS Untuk informasi selengkapnya, lihat Akses penyediaan untuk peringatan terhadap Deteksi dan Respons AWS Insiden.
  
  catatan
  Untuk membantu Anda dengan orientasi besar Akun AWS, AWS dapat memberi Anda AWS Command Line Interface skrip untuk mempercepat penyediaan SLR ini.
2. (Opsional) Jika alarm Anda ada di Amazon CloudWatch, pastikan bahwa AWS Identity and Access Management pengguna atau peran yang digunakan untuk pengujian alarm (sebelum go-live) memiliki izin cloudwatch:SetAlarmState IAM Akun AWS yang menjalankan beban kerja penting. Ini diperlukan untuk pengujian alarm (gameday) pasca onboarding. Untuk informasi selengkapnya, lihat Menguji beban kerja onboard di Deteksi dan Respons AWS Insiden.
Buat AWS Dukungan kasus untuk berlangganan beban kerja untuk manajemen insiden yang cepat. Perhatikan bahwa Anda Akun AWS diaktifkan secara otomatis untuk manajemen insiden cepat masuk, yang berarti Anda dapat mengajukan kasus ke antrian Deteksi Insiden dan Respons Operasi Terpadu melalui Konsol Pusat Dukungan AWS Command Line Interface, atau AWS SDK untuk tindakan cepat. AWS Untuk secara proaktif memantau dan membuat insiden dengan AWS Dukungan kasus keluar, buat AWS Dukungan kasus untuk beban kerja kritis Anda. Caranya, lakukan langkah-langkah berikut:
1. Masuk ke AWS Support Center Console, pilih Buat kasus, lalu pilih Dukungan teknis.
2. Untuk Layanan pilih Deteksi dan Respons Insiden.
3. Untuk Kategori pilih Onboard beban kerja baru.
4. Untuk Keparahan pilih Panduan umum.
5. Lampirkan kuesioner Beban Kerja dan Alarm yang Anda lengkapi pada langkah sebelumnya.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Prasyarat

Minta respons insiden 5 menit

Operasi Terpadu Memulai: Alarm kritis onboard untuk manajemen insiden yang cepat

catatan