Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
CloudWatch Alarm
Solusi ini menyebarkan dua CloudWatch Alarm yang memantau kondisi operasional yang membutuhkan perhatian. Secara default, alarm ini tidak memiliki tindakan pemberitahuan yang dikonfigurasi. Kami merekomendasikan berlangganan topik Amazon SNS ke setiap alarm sehingga operator menerima pemberitahuan segera ketika masalah terjadi.
Berlangganan notifikasi alarm
Untuk menerima pemberitahuan saat alarm menyala:
-
Buka konsol CloudWatch Alarm
. -
Cari alarm yang diawali dengan nama tumpukan Anda (misalnya,
my-stack-OrphanCleanupFailure). -
Pilih alarm dan pilih Edit.
-
Di bawah Pemberitahuan, pilih Tambahkan pemberitahuan.
-
Pilih atau buat topik SNS dengan titik akhir notifikasi pilihan Anda (email, SMS, atau Lambda).
-
Pilih Perbarui alarm.
Ulangi untuk setiap alarm.
OrphanCleanupFailure
| Atribut | Nilai |
|---|---|
|
Nama alarm |
|
|
Metrik |
|
|
Ambang batas |
>= 1 kegagalan dalam 5 menit |
|
Perlakukan data yang hilang |
Melanggar |
Apa yang dipantau alarm ini: Solusinya menggunakan tiga lapisan pertahanan untuk mencegah layanan ECS yang melarikan diri:
-
Lapisan 1: Penanganan kesalahan otomatis - Alur kerja orkestrasi pengujian mencakup penanganan kesalahan di setiap langkah. Jika ada yang gagal selama penyediaan, stabilisasi, atau eksekusi, alur kerja secara otomatis memicu pembersihan untuk menguras dan menghapus layanan ECS.
-
Lapisan 2: Deteksi kegagalan eksekusi - Jika alur kerja orkestrasi itu sendiri keluar secara tak terduga (misalnya, karena batas waktu atau kesalahan internal yang melewati penanganan kesalahan normal), EventBridge aturan mendeteksi kegagalan dan secara independen memicu pembersihan untuk setiap wilayah yang terlibat dalam pengujian.
-
Lapisan 3: Pembersihan anak yatim setiap jam — Proses terjadwal berjalan setiap jam, memindai layanan ECS yang tidak terkait dengan pengujian aktif apa pun, dan menghapusnya secara paksa. Ini adalah jaring pengaman pilihan terakhir — jika Layer 1 dan Layer 2 gagal, layanan yang bocor masih dihapus dalam waktu satu jam. Jika proses pembersihan anak yatim itu sendiri gagal, alarm ini menyala.
Mengapa itu penting: Layanan Fargate ECS Yatim piatu terus berjalan dan menimbulkan biaya tanpa visibilitas di konsol DLT. Tanpa berlangganan notifikasi, operator hanya akan menemukan masalah ketika biaya tak terduga muncul pada tagihan.
Respons yang disarankan: Saat alarm ini menyala, navigasikan ke konsol Amazon ECS
MetricFilterCount
| Atribut | Nilai |
|---|---|
|
Nama alarm |
|
|
Metrik |
|
|
Ambang batas |
>= 90 |
|
Perlakukan data yang hilang |
Tidak melanggar |
Apa yang dipantau alarm ini: Solusinya membuat filter CloudWatch metrik secara dinamis pada grup log ECS untuk mendukung metrik langsung selama eksekusi pengujian. AWS membatasi setiap grup log hingga 100 filter metrik. Alarm ini menyala ketika penggunaan mencapai 90% dari batas itu.
Mengapa itu penting: Jika batas tercapai, uji beban baru akan gagal.
Respons yang disarankan: Hapus skenario pengujian yang tidak lagi diperlukan. Saat skenario pengujian dihapus, solusi akan menghapus filter metrik terkait dan membebaskan kapasitas untuk pengujian baru.