View a markdown version of this page

Kuesioner orientasi beban kerja dan konsumsi alarm di Deteksi dan Respons Insiden (jalur pengecualian) - Panduan Pengguna Deteksi dan Respons Insiden AWS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kuesioner orientasi beban kerja dan konsumsi alarm di Deteksi dan Respons Insiden (jalur pengecualian)

catatan

Jika Anda tidak dapat menggunakan IDR CLI untuk mengisi beban kerja Anda, gunakan kuesioner berikut untuk beban kerja dan orientasi alarm.

Topik ini menyediakan kuesioner yang perlu Anda lengkapi saat melakukan onboarding beban kerja ke AWS Incident Detection and Response dan saat mengonfigurasi alarm untuk masuk ke dalam layanan. Kuesioner orientasi beban kerja mencakup informasi umum tentang beban kerja Anda, detail arsitekturnya, dan kontak untuk respons insiden. Dalam kuesioner konsumsi alarm, Anda menentukan alarm kritis yang memicu pembuatan insiden di Deteksi dan Respons Insiden untuk beban kerja Anda, serta informasi buku runbook tentang siapa yang harus dihubungi dan tindakan apa yang harus diambil. Mengisi kuesioner ini dengan benar adalah langkah kunci dalam menyiapkan proses pemantauan dan respons insiden untuk beban kerja Anda AWS .

Unduh kuesioner orientasi Beban Kerja:

Unduh kuesioner konsumsi Alarm:

Kuesioner orientasi beban kerja - Pertanyaan umum

Pertanyaan umum
Pertanyaan Contoh Respons
Nama Perusahaan

Amazon Inc.

Nama beban kerja ini (termasuk singkatan apa pun)

Operasi Ritel Amazon (ARO)

Pengguna akhir primer dan fungsi beban kerja ini.

Beban kerja ini adalah aplikasi e-commerce yang memungkinkan pengguna akhir untuk membeli berbagai item. Beban kerja ini adalah penghasil pendapatan utama untuk bisnis kami.

Kuesioner orientasi beban kerja - Pertanyaan arsitektur

Pertanyaan arsitektur
Pertanyaan Contoh Respons

Daftar tag AWS sumber daya yang digunakan untuk menentukan sumber daya yang merupakan bagian dari beban kerja ini. AWS menggunakan tag ini untuk mengidentifikasi sumber daya beban kerja ini untuk mempercepat dukungan selama insiden.

catatan

Tag peka terhadap huruf besar dan kecil. Jika Anda memberikan beberapa tag, semua sumber daya yang digunakan oleh beban kerja ini harus memiliki tag yang sama.

AppName: Optimax

lingkungan: Produksi

Daftar Layanan AWS(s) yang digunakan oleh beban kerja ini, Akun AWS(s) dan Wilayah AWS(s) tempat mereka berada.

Layanan AWS: Rute 53, ALB, ECS,...

Akun: 123456789101, 123456789102,...

Wilayah: US-EAST-1, US-WEST-2,...

Kuesioner konsumsi alarm - Ikhtisar

Dalam kuesioner menelan alarm, Anda menentukan alarm penting untuk beban kerja yang ingin Anda gunakan untuk Deteksi dan Respons Insiden AWS, serta kontak yang ingin digunakan oleh Insinyur Manajemen Insiden saat alarm ini dipicu.

Kuesioner Alarm Ingestion dibagi menjadi beberapa bagian berikut:

  • Bagian Kontak: Pertama, tentukan kontak utama yang akan disertakan pada Dukungan Kasus yang dibuat dengan Deteksi dan Respons Insiden AWS saat alarm dipicu, serta aplikasi konferensi pilihan Anda untuk jembatan insiden. Jika tidak ada preferensi bridge yang diberikan, AWS Incident Detection and Response akan membuat jembatan insiden selama insiden. Selanjutnya, tentukan kontak eskalasi dan interval waktu untuk melibatkan mereka ketika kontak utama tidak dapat dijangkau. Terakhir, daftarkan kontak apa pun yang harus menerima pembaruan status insiden reguler melalui kasus dukungan selama insiden terjadi.

  • Matriks alarm: Buat daftar set alarm yang akan melibatkan Deteksi dan Respons Insiden AWS saat dipicu. Lihat “Kriteria Alarm Kritis” yang ditentukan oleh Deteksi dan Respons Insiden AWS saat memilih alarm untuk orientasi. Untuk informasi selengkapnya, lihat Definisi alarm.

Kuesioner konsumsi alarm - Pertanyaan buku runbook

Pertanyaan buku runbook
Pertanyaan Contoh Respons

AWS melibatkan kontak beban kerja melalui kasus ini Dukungan . Siapa kontak utama ketika alarm memicu beban kerja ini?

Tentukan aplikasi konferensi pilihan Anda dan AWS akan meminta rincian ini selama insiden.

catatan

Jika aplikasi konferensi pilihan tidak disediakan, maka AWS akan menghubungi selama insiden dan menyediakan jembatan Chime bagi Anda untuk bergabung.

Tim Aplikasi

app@example.com

+61 2 3456 7890

Jika kontak utama tidak tersedia selama insiden, harap berikan kontak eskalasi dan garis waktu dalam urutan komunikasi pilihan.

1. Setelah 10 menit, jika tidak ada tanggapan dari Kontak Utama, libatkan:

John Smith - Pengawas Aplikasi

john.smith@example.com

+61 2 3456 7890

2. Setelah 10 menit, jika tidak ada tanggapan dari John Smith, hubungi:

Jane Smith - Manajer Operasi

jane.smith@example.com

+61 2 3456 7890

Matriks alarm

Berikan informasi berikut untuk mengidentifikasi kumpulan alarm yang akan melibatkan Deteksi dan Respons Insiden AWS untuk membuat insiden atas nama beban kerja Anda. Setelah teknisi dari AWS Incident Detection and Response meninjau alarm Anda, langkah orientasi tambahan akan dikirimkan.

Deteksi dan Respons Insiden AWS Kriteria alarm kritis:

  • Alarm Deteksi dan Respons Insiden AWS hanya boleh memasukkan status “Alarm” setelah dampak bisnis yang signifikan terhadap beban kerja yang dipantau (hilangnya pengalaman revenue/degraded pelanggan) yang memerlukan perhatian operator segera.

  • Alarm Deteksi dan Respons Insiden AWS juga harus melibatkan resolver Anda untuk beban kerja pada saat yang sama atau sebelum keterlibatan. AWS Manajer Insiden berkolaborasi dengan resolver Anda dalam proses mitigasi, dan tidak berfungsi sebagai responden lini pertama yang kemudian meningkat kepada Anda.

  • Ambang batas alarm Deteksi Insiden dan Respons AWS harus disetel ke ambang batas dan durasi yang sesuai sehingga setiap kali alarm memicu investigasi harus dilakukan. Jika alarm bergerak di antara status “Alarm” dan “OK”, dampak yang cukup akan terjadi untuk menjamin respons dan perhatian operator.

Kebijakan Deteksi dan Respons Insiden AWS untuk pelanggaran kriteria:

Kriteria ini hanya dapat dievaluasi berdasarkan kasus per kasus saat peristiwa terjadi. Tim Manajemen Insiden bekerja dengan manajer akun teknis (TAM) Anda untuk menyesuaikan alarm dan dalam kasus yang jarang terjadi menonaktifkan pemantauan jika diduga alarm pelanggan tidak mematuhi kriteria ini dan melibatkan tim Manajemen Insiden secara tidak perlu dengan tarif reguler.

penting

Berikan alamat email distribusi grup saat memberikan alamat kontak, sehingga Anda dapat mengontrol penambahan dan penghapusan penerima tanpa pembaruan runbook.

Berikan nomor telepon kontak untuk tim rekayasa keandalan situs (SRE) Anda jika Anda ingin tim Deteksi dan Respons Insiden AWS menelepon mereka setelah mengirim email keterlibatan awal.

Tabel matriks alarm untuk CloudWatch alarm

CloudWatch alarm ARN

Kontak utama untuk alarm ini.

(Jika berbeda dari beban kerja kontak utama)

Tentukan yang paling relevan Layanan AWS untuk alarm ini untuk melibatkan insinyur yang tepat. Masukkan N/A jika tidak diperlukan.

Contoh:

arn:aws:cloudwatch:us-east-1:123456789012:alarm:ALB_5xx_Target_Response

Contoh:

Sam Smith - Manajer Aplikasi

sam.smith@example.com

+61 2 3456 7890

Contoh:

ECS

Tabel matriks alarm untuk alarm APM pihak ketiga

EventBridge Bus Acara ARN

(Ini dibuat sebagai bagian dari integrasi APM pihak ketiga untuk merutekan peringatan ke Deteksi dan Respons Insiden AWS.)

Contoh: (Akan ada bus acara per Account/Region kombinasi)

arn:aws:events:us-east-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

arn:aws:events:us-west-1:123456789012:event-bus/APMName-AWSIncidentDetectionResponse-EventBus

Pengidentifikasi Alarm

Apa yang diwakili oleh metrik ini?

Mengapa alarm ini penting?

Kontak utama untuk alarm ini.

(Jika berbeda dari beban kerja kontak utama)

Tentukan yang paling relevan Layanan AWS untuk alarm ini untuk melibatkan insinyur yang tepat. Masukkan N/A jika tidak diperlukan.

Contoh:

Alb_5xx_ Target_Response

ID Akun: 123456789012

Wilayah: us-east-1

Contoh:

Metrik ini mewakili respons transaksi dari target di belakang ALB. Jika kesalahan 5XX melebihi ambang batas, ini merupakan kegagalan kritis untuk memproses transaksi bisnis.

Contoh:

Sam Smith - Manajer Aplikasi

sam.smith@example.com

+61 2 3456 7890

Contoh:

ECS