Peringatan dari pemantauan dasar di AMS - Panduan Pengguna Tingkat Lanjut AMS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Peringatan dari pemantauan dasar di AMS

Pelajari tentang default pemantauan AMS. Untuk informasi selengkapnya, lihat Pemantauan dan manajemen acara di AMS.

Tabel berikut menunjukkan apa yang dipantau, dan ambang batas peringatan default. Anda dapat mengubah ambang peringatan dengan Manajemen | Lainnya | Lainnya | Perbarui (ct-0xdawir96cy7k) RFC setelah menentukan perubahan apa yang Anda inginkan dan berlangganan topik Amazon SNS yang relevan. CloudWatch Untuk informasi tentang membuat dan berlangganan topik, lihat Berlangganan Topik. Untuk informasi umum, lihat Amazon SNS FAQs. Untuk diberi tahu secara langsung saat alarm melewati ambang batas, selain proses peringatan standar AMS, ikuti petunjuk berikut tentang cara menimpa konfigurasi alarm,. Menerima peringatan yang dihasilkan oleh AMS

Amazon CloudWatch menyediakan retensi metrik yang diperpanjang. Untuk informasi selengkapnya, lihat CloudWatch Batasan-batasan.

catatan

AMS mengkalibrasi pemantauan baseline secara periodik. Akun baru selalu disertakan dengan pemantauan dasar terbaru dan tabel menjelaskan pemantauan dasar untuk akun yang baru di-onboard. AMS memperbarui pemantauan dasar di akun yang ada secara berkala dan Anda mungkin mengalami jeda waktu sebelum pembaruan dilakukan. Untuk informasi selengkapnya, lihat Melihat konfigurasi pemantauan untuk akun AMS.

Peringatan dari pemantauan dasar

Layanan

Peringatan keamanan

Nama peringatan dan kondisi pemicu

Catatan

Untuk peringatan berbintang (*), AMS secara proaktif menilai dampak dan memulihkan bila memungkinkan; jika remediasi tidak memungkinkan, AMS menciptakan insiden. Jika otomatisasi gagal memperbaiki masalah, AMS memberi tahu Anda tentang kasus insiden dan seorang insinyur AMS terlibat. Selain itu, peringatan ini dapat dikirim langsung ke email Anda (jika Anda telah memilih topik Direct-Customer-Alerts SNS).

Contoh Application Load Balancer (ALB)

Tidak

RejectedConnectionCount

jumlah> 0 selama 1 menit, 5 kali berturut-turut.

CloudWatch alarm jika jumlah koneksi yang ditolak karena load balancer mencapai maksimum.

Target Application Load Balancer (ALB)

Tidak

TargetConnectionErrorCount

jumlah> 0 selama 1 menit, 5 kali berturut-turut.

CloudWatch alarm jika jumlah koneksi tidak berhasil dibuat antara penyeimbang beban dan instans terdaftar.

EC2 Contoh Amazon - Windows

Tidak

SecureChannelFailure

> 0,0 untuk 10 dari 15 titik data terakhir.

CloudWatch alarm pada instance Windows untuk mengingatkan ketika koneksi Secure a Channel gagal.

Contoh Aurora

Tidak

CPUUtilization

> 85% selama 5 menit, 2 kali berturut-turut.

CloudWatch alarm.

AWS Backup

Ya

DeleteRecoveryPoint

Prinsipal peran IAM yang tidak terduga atau prinsipal pengguna IAM telah menghapus titik AWS Backup pemulihan.

CloudWatch acara. Dipancarkan saat titik pemulihan cadangan dihapus.

AWS Outposts

Ya

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 80% selama 5 menit, 12 kali berturut-turut.

CloudWatch alarm pada ketersediaan kapasitas keluarga misalnya AWS Outposts sumber daya.

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 80% selama 5 menit, 12 kali berturut-turut.

CloudWatch alarm pada ketersediaan kapasitas tipe instans AWS Outposts sumber daya.

AMSOutpostsConnectedStatusConnectedStatus

< 1 selama 5 menit, 1 kali berturut-turut.

CloudWatch alarm pada koneksi tautan AWS Outposts layanan, kurang dari 1 hitungan terganggu.

AMSOutpostsCapacityExceptionCapacityExceptions

0 selama 5 menit, 1 kali berturut-turut.

CloudWatch alarm pada kesalahan kapasitas yang tidak mencukupi misalnya peluncuran untuk sumber daya AWS Outposts s

.

EC2 contoh - semua OSs

Tidak

CPUUtilization*

>= 95% selama 5 menit, 6 kali berturut-turut.

CloudWatch alarm. Pemanfaatan CPU yang tinggi adalah indikator perubahan status aplikasi seperti kunci mati, loop tak terbatas, serangan berbahaya, dan anomali lainnya.

StatusCheckFailed

> 0 selama 5 menit, 3 kali berturut-turut.

CloudWatch alarm.

Penggunaan Volume Root

>= 95% selama 5 menit, 6 kali berturut-turut.

Penggunaan Volume Non-root

> 85% selama 5 menit, 2 kali berturut-turut.

Dinonaktifkan secara default; untuk informasi tambahan, lihat https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info.

Bebas Memori*

MemoryFree < 5% selama 5 menit, 6 kali berturut-turut.

Ya

Malware EPS

Malware ditemukan pada contoh.

CloudWatch acara.

EC2 Contoh Amazon - Linux

Tidak

Penggunaan Inode Volume Root

Rata-rata >= 95% selama 5 menit, 6 kali berturut-turut.

CloudWatch alarm. Diterapkan untuk instance Linux saja.

Bebas Swap *

Memory Swap < 5% selama 5 menit, 6 kali berturut-turut.

ElastiCache Cluster

Tidak

CurrConnections = 65000

Alarm ini memberi tahu AMS tentang batas koneksi maksimum ElastiCache Host.

CloudWatch Alarm. Jika Anda ingin memperbarui ambang batas ini, hubungi dukungan AMS.

ElastiCache Node

Tidak

CPUUtilization

Rata-rata> nilai yang telah ditentukan selama 15 menit, 2 kali berturut-turut.

CloudWatch alarm. Defaultnya adalah 90. Jika Redis, gunakan salah satu nilai berikut berdasarkan jenis instance:

  • cache.t1.micro: 90%

  • cache.m1.small: 90%

  • cache.m1.medium: 90%

  • cache.m1.large: 45%

  • cache.m1.xlarge: 22,5%

  • cache.m2.xlarge: 45%

  • cache.m2.4xlarge: 11,25%

  • cache.c1.xlarge: 11,25%

  • cache.t2.micro: 90%

  • cache.t2.small: 90%

  • cache.t2.medium: 45%

  • cache.m3.medium: 90%

  • cache.m3.large: 45%

  • cache.m3.xlarge: 22,5%

  • cache.m3.2xlarge: 11,25%

  • cache.r3.large: 45%

  • cache.r3.xlarge: 22,5%

  • cache.r3.2xlarge: 11,25%

  • cache.r3.4xlarge: 5.625%

  • cache.r3.8xlarge: 2.8125%

ElastiCache Node - memcache

Tidak

SwapUsage

maksimum> 50.000.000 byte selama 5 menit, 5 kali berturut-turut.

CloudWatch alarm. Diterapkan hanya untuk memcached.

OpenSearch kluster

Tidak

ClusterStatus.merah

maksimum adalah >= 1 selama 1 menit, 1 kali berturut-turut.

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

CloudWatch alarm. Setidaknya satu serpihan utama dan replika yang tidak dialokasikan untuk simpul. Untuk mempelajari lebih lanjut, lihat Status Cluster Merah.

OpenSearch domain

Tidak

KMSKeyKesalahan

>= 1 selama 1 menit, 1 kali berturut-turut.

CloudWatch alarm. Kunci enkripsi KMS yang digunakan untuk mengenkripsi data yang ada di domain Anda dinonaktifkan. Aktifkan kembali untuk mengembalikan operasi normal. Untuk mempelajari lebih lanjut, lihat Enkripsi Data saat Istirahat untuk OpenSearch Layanan Layanan.

ClusterStatus.kuning

maksimum adalah> = 1 selama 1 menit, 1 kali berturut-turut

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

Setidaknya satu serpihan replika tidak dialokasikan ke simpul. Untuk mempelajari lebih lanjut, lihat Status Cluster Kuning.

FreeStorageSpace

minimum adalah <= 20480 selama 1 menit, 1 kali berturut-turut

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

Sebuah simpul di klaster Anda turun ke 20 GiB ruang penyimpanan gratis. Untuk mempelajari lebih lanjut, lihat Kurangnya Ruang Penyimpanan yang Tersedia.

ClusterIndexWritesBlocked

>= 1 selama 5 menit, 1 kali berturut-turut

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

Cluster memblokir permintaan tulis. Untuk mempelajari lebih lanjut, lihat ClusterBlockException.

Simpul

minimum < x selama 1 hari, 1 kali berturut-turut

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

x adalah jumlah simpul dalam klaster Anda. Alarm ini menunjukkan bahwa setidaknya satu simpul di klaster Anda telah tidak terjangkau untuk satu hari. Untuk mempelajari selengkapnya, lihat Node Cluster Gagal.

CPUUtilization

Rata-rata adalah >= 80% selama 15 menit, 3 kali berturut-turut

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

Pemanfaatan CPU 100% adalah umum, tetapi rata-rata tinggi yang berkelanjutan bermasalah. Pertimbangkan untuk menggunakan jenis instans yang lebih besar atau menambahkan instans.

JVMMemoryTekanan

maksimum adalah> = 80% selama 5 menit, 3 kali berturut-turut

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

Klaster bisa mengalami kesalahan kehabisan memori jika penggunaan meningkat. Pertimbangkan penskalaan vertikal. Amazon ES menggunakan separuh dari RAM instans untuk Java heap, hingga ukuran tumpukan 32 GiB. Anda dapat menskalakan instans secara vertikal hingga 64 GiB RAM, di mana Anda dapat menskalakan secara horizontal dengan menambahkan instans.

Guru CPUUtilization

Rata-rata adalah >= 50% selama 15 menit, 3 kali berturut-turut

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

Pertimbangkan untuk menggunakan tipe instans yang lebih besar untuk node master khusus Anda. Karena perannya dalam stabilitas dan blue/green penerapan cluster, node master khusus harus memiliki penggunaan CPU rata-rata yang lebih rendah daripada node data.

JVMMemoryTekanan Master

maksimum adalah> = 80% selama 15 menit, 1 kali berturut-turut

AMS mengambil tindakan proaktif untuk mengurangi dampak operasional, saat peringatan ini dipicu.

Pertimbangkan untuk menggunakan tipe instans yang lebih besar untuk node master khusus Anda. Karena perannya dalam stabilitas dan blue/green penerapan cluster, node master khusus harus memiliki penggunaan CPU rata-rata yang lebih rendah daripada node data.

OpenSearch contoh

Tidak

AutomatedSnapshotFailure

maksimum adalah >= 1 selama 1 menit, 1 kali berturut-turut.

CloudWatch alarm. Sebuah snapshot otomatis gagal. Kegagalan ini sering merupakan hasil dari status kesehatan klaster merah. Lihat Status Cluster Merah.

Contoh Elastic Load Balancing

Tidak

SurgeQueueLength

> 100 selama 1 menit, 15 kali berturut-turut.

CloudWatch alarm jika kelebihan jumlah permintaan sedang menunggu perutean.

HTTPCode_ELB_5xx_Hitung

jumlah> 0 selama 5 menit, 3 kali berturut-turut.

CloudWatch alarm pada kelebihan jumlah kode respons HTTP 5XX yang berasal dari penyeimbang beban.

SpilloverCount

> 1 selama 1 menit, 15 kali berturut-turut.

CloudWatch alarm jika kelebihan jumlah permintaan yang ditolak karena antrian lonjakan penuh.

GuardDuty layanan

Ya

Tidak berlaku; semua temuan (tujuan ancaman) dipantau. Setiap temuan sesuai dengan peringatan.

Perubahan dalam GuardDuty temuan. Perubahan ini termasuk temuan yang baru dihasilkan atau kejadian selanjutnya dari temuan yang ada.

Daftar jenis GuardDuty temuan yang didukung ada di Jenis Penemuan GuardDuty Aktif.

Kondisi

Bervariasi

AWS Health Dashboard

Pemberitahuan dikirim ketika ada perubahan status AWS Health Dashboard (AWS Health) peristiwa sehubungan dengan layanan dasar yang didukung oleh AMS. Untuk informasi selengkapnya, lihat Layanan yang didukung.

AWS Managed Microsoft AD

Tidak

Status Direktori Aktif

AWS Managed Microsoft AD instance mengirimkan acara status aktif.

Acara layanan. Dipancarkan ketika direktori beroperasi secara normal setelah suatu peristiwa.

Status Direktori Terganggu

AWS Managed Microsoft AD instance mengirimkan peristiwa status direktori terganggu.

Acara layanan. Dipancarkan saat direktori berjalan dalam keadaan terdegradasi. Satu atau lebih masalah telah terdeteksi, dan tidak semua operasi direktori dapat bekerja pada kapasitas operasional penuh.

Status Direktori Tidak Dapat Dioperasikan

AWS Managed Microsoft AD instance mengirimkan peristiwa status yang tidak dapat dioperasikan.

Acara layanan. Dipancarkan ketika direktori tidak berfungsi. Semua titik akhir direktori telah melaporkan masalah.

Menghapus Status Direktori

AWS Managed Microsoft AD misalnya mengirimkan acara status direktori penghapusan.

Acara layanan. Dipancarkan saat direktori sedang dihapus.

Status Direktori Gagal

AWS Managed Microsoft AD instance mengirimkan peristiwa status gagal.

Acara layanan. Dipancarkan ketika direktori tidak dapat dibuat.

RestoreFailed Status Direktori

AWS Managed Microsoft AD instance mengirimkan peristiwa status direktori yang gagal dipulihkan.

Acara layanan. Dipancarkan saat memulihkan direktori dari snapshot gagal.

Contoh Amazon RDS

Tidak

Peringatan Penyimpanan Rendah dipicu ketika penyimpanan yang dialokasikan untuk instans DB telah habis.

RDS-EVENT-0007, lihat detail di Menggunakan pemberitahuan acara Amazon RDS.

Instans DB gagal

Instans DB gagal karena konfigurasi tidak kompatibel atau masalah penyimpanan yang mendasarinya. Mulailah a point-in-time-restore untuk instance DB.

Acara layanan. RDS-EVENT-0031, Kategori Acara Amazon RDS dan Pesan Acara.

Failover tidak dicoba

Amazon RDS tidak mencoba failover yang diminta karena failover baru-baru ini terjadi pada instans DB.

Acara layanan. RDS-EVENT-0034, Kategori Acara Amazon RDS dan Pesan Acara.

Parameter instans DB tidak valid

Misalnya, MySQL tidak dapat memulai karena parameter terkait memori disetel terlalu tinggi untuk kelas instance ini, sehingga tindakan pelanggan adalah memodifikasi parameter memori dan me-reboot instance DB.

Acara layanan. RDS-EVENT-0035, Kategori Acara Amazon RDS dan Pesan Acara.

Instans IDs subnet DB tidak valid

Instans DB ada di jaringan yang tidak kompatibel. Beberapa subnet yang ditentukan IDs tidak valid atau tidak ada.

Acara layanan. RDS-EVENT-0036, Kategori Acara Amazon RDS dan Pesan Acara.

Contoh DB membaca kesalahan replika

Terjadi kesalahan dalam proses replikasi baca. Untuk mengetahui informasi selengkapnya, lihat pesan peristiwa. Untuk informasi tentang pemecahan masalah kesalahan Baca Replika, lihat Memecahkan Masalah Replica MySQL Read Replica.

Acara layanan. RDS-EVENT-0045, Kategori Acara Amazon RDS dan Pesan Acara.

Replikasi baca instans DB berakhir

Replikasi pada Read Replica telah berakhir.

Acara layanan. RDS-EVENT-0057, Kategori Acara Amazon RDS dan Pesan Acara.

Kesalahan membuat akun pengguna statspack

Terjadi kesalahan saat membuat akun pengguna Statspack PERFSTAT. Jatuhkan akun sebelum menambahkan opsi Statspack.

Acara layanan. RDS-EVENT-0058, Kategori Acara Amazon RDS dan Pesan Acara.

Pemulihan instans DB dimulai

Instans DB SQL Server membangun ulang cerminnya. Performa akan diturunkan hingga cermin dibangun kembali. Basis data ditemukan dengan model pemulihan non-FULL. Model pemulihan diubah kembali ke FULL dan pemulihan mirroring dimulai. (<dbname>: <recovery model found>[,...]).

Acara layanan. RDS-EVENT-0066, Kategori Acara Amazon RDS dan Pesan Acara.

Failover untuk klaster DB telah gagal.

RDS-EVENT-0069, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Bucket S3 pemulihan izin tidak valid

Peran IAM yang Anda gunakan untuk mengakses bucket Amazon S3 untuk pencadangan dan pemulihan native SQL Server tidak dikonfigurasi dengan benar. Untuk informasi selengkapnya, lihat Menyiapkan Pencadangan dan Pemulihan Asli.

Acara layanan. RDS-EVENT-0081, Kategori Acara Amazon RDS dan Pesan Acara.

Aurora tidak dapat menyalin data cadangan dari bucket Amazon S3.

RDS-EVENT-0082, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Peringatan penyimpanan rendah ketika instans DB telah mengkonsumsi lebih dari 90% penyimpanan yang dialokasikan

RDS-EVENT-0089, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Layanan notifikasi saat penskalaan gagal untuk klaster DB Tanpa Server Aurora.

RDS-EVENT-0143, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Instans DB dalam keadaan tidak valid. Tidak ada tindakan yang diperlukan. Penskalaan otomatis akan dicoba lagi nanti.

RDS-EVENT-0219, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Instans DB telah mencapai ambang penyimpanan penuh, dan database telah dimatikan.

RDS-EVENT-0221, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Peristiwa ini menunjukkan penskalaan otomatis penyimpanan instans RDS tidak dapat diskalakan, mungkin ada beberapa alasan mengapa penskalaan otomatis gagal.

RDS-EVENT-0223, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Penskalaan otomatis penyimpanan telah memicu tugas penyimpanan skala tertunda yang akan mencapai ambang penyimpanan maksimum.

RDS-EVENT-0224, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Instans DB memiliki tipe penyimpanan yang saat ini tidak tersedia di Availability Zone. Penskalaan otomatis akan dicoba lagi nanti.

RDS-EVENT-0237, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

RDS gagal menyediakan kapasitas untuk proksi karena tidak ada alamat IP yang cukup yang tersedia di subnet Anda.

RDS-EVENT-0243, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

Penyimpanan untuk akun AWS Anda telah melebihi kuota penyimpanan yang diizinkan.

RDS-EVENT-0254, lihat detail di Kategori Acara Amazon RDS dan Pesan Acara.

CPUUtilization

Pemanfaatan CPU rata-rata> 90% selama 15 menit, 2 kali berturut-turut.

CloudWatch alarm.

DiskQueueDepth

Jumlahnya > 75 selama 1 menit, 15 kali berturut-turut.

FreeStorageSpace

Rata-rata < 1.073.741.824 byte selama 5 menit, 2 kali berturut-turut.

SwapUsage

Rata-rata >= 104.857.600 byte selama 5 menit, 2 kali berturut-turut.

Klaster Amazon Redshift

Tidak

RedshiftClusterStatus

Kesehatan cluster saat tidak dalam mode pemeliharaan < 1 selama 5 menit.

1 mewakili cluster yang sehat.

Amazon Macie

Ya

Peringatan yang baru dibuat dan pembaruan untuk peringatan yang ada.

Macie menemukan perubahan dalam temuan. Perubahan ini termasuk temuan yang baru dihasilkan atau kejadian selanjutnya dari temuan yang ada.

Peringatan Amazon Macie. Untuk daftar jenis peringatan Macie yang didukung, lihat Menganalisis Temuan Amazon Macie. Perhatikan bahwa Macie tidak diaktifkan untuk semua akun.

AMS mengambil tindakan pro-aktif (menskalakan klaster) saat peringatan ini dipicu.

Untuk informasi tentang upaya remediasi, lihatRemediasi peringatan otomatis AMS.