View a markdown version of this page

Pilar keunggulan operasional - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pilar keunggulan operasional

Pilar keunggulan operasional dari AWS Well-Architected Framework berfokus pada menjalankan dan memantau sistem, dan terus meningkatkan proses dan prosedur. Ini mencakup kemampuan untuk mendukung pengembangan dan menjalankan beban kerja secara efektif, mendapatkan wawasan tentang operasi mereka, dan terus meningkatkan proses dan prosedur pendukung untuk memberikan nilai bisnis. Anda dapat mengurangi kompleksitas operasional melalui beban kerja penyembuhan diri, yang mendeteksi dan memperbaiki sebagian besar masalah tanpa campur tangan manusia. Anda dapat bekerja menuju tujuan ini dengan mengikuti praktik terbaik yang dijelaskan di bagian ini. Gunakan metrik APIs, dan mekanisme Amazon Neptunus untuk merespons dengan benar saat beban kerja Anda menyimpang dari perilaku yang diharapkan.

Diskusi pilar keunggulan operasional ini berfokus pada bidang-bidang utama berikut:

  • Infrastruktur sebagai kode (IAc)

  • Manajemen perubahan

  • Strategi ketahanan

  • Manajemen insiden

  • Pelaporan audit untuk kepatuhan

  • Pencatatan log dan pemantauan

Mengotomatiskan penerapan menggunakan pendekatan IAc

Praktik terbaik untuk mengotomatiskan penerapan di Neptunus menggunakan IAc meliputi:

  • Terapkan infrastruktur sebagai kode (IAc) untuk menyebarkan kluster Neptunus bila memungkinkan. Untuk konfigurasi lingkungan yang konsisten, gunakan AWS CloudFormationtemplat, AWS Cloud Development Kit (AWS CDK), atau HashiCorp Terraform untuk membuat semua sumber daya yang diperlukan untuk klaster Anda.

  • Mengotomatiskan prosedur operasional Neptunus, seperti mengubah ukuran instance, menambahkan atau menghapus replika baca, atau melakukan failover manual pada tabel global, bila memungkinkan.

  • Simpan string koneksi secara eksternal dari klien Anda. Gunakan proses ekstrak, transformasi, dan muat (ETL) untuk memfasilitasi strategi blue/green penerapan, pemulihan bencana (DR), dan migrasi downtime mendekati nol ke cluster baru. String koneksi dapat disimpan di AWS Secrets Manager, Amazon DynamoDB, atau lokasi mana pun di mana mereka dapat diubah secara dinamis.

  • Gunakan tag untuk menambahkan metadata ke sumber daya Neptunus Anda, dan lacak penggunaan berdasarkan tag. Untuk informasi selengkapnya, lihat Menandai Sumber Daya Amazon Neptunus.

Buat perubahan yang sering, kecil, dan reversibel

Rekomendasi berikut berfokus pada perubahan kecil dan reversibel untuk meminimalkan kompleksitas dan mengurangi kemungkinan gangguan beban kerja:

  • Simpan templat dan skrip IAC dalam layanan kontrol sumber, seperti GitHub atau. GitLab

    penting

    Jangan menyimpan AWS kredensil dalam kontrol sumber.

Antisipasi kegagalan

Infrastruktur penyembuhan diri mencontohkan keunggulan operasional dengan mengantisipasi kegagalan dan berusaha menyelesaikan masalah apa pun tanpa intervensi. Rekomendasi berikut membantu Anda mencapai kedewasaan itu dengan Neptunus:

  • Buat rencana pemantauan yang menggunakan CloudWatch metrik Amazon untuk memantau penggunaan CPU dan memori instans DB Anda, dan pahami pola penggunaannya. Buat CloudWatch dasbor dan alarm untuk metrik utama dan respons klien Neptunus yang ditemukan di log aplikasi Anda. Untuk informasi selengkapnya tentang indikator pemanfaatan CPU tinggi atau rendah, lihat Menggunakan CloudWatch untuk memantau kinerja instans DB di Neptunus dalam dokumentasi Neptunus.

    Jika Anda sering mendapatkan out-of-memory pengecualian pada kueri Anda, pertimbangkan untuk mengurangi jumlah total node yang dilalui kueri Anda atau coba gunakan instance dari X2 keluarga, yang memiliki rasio lebih tinggi. RAM-to-CPU

  • Atur notifikasi untuk memantau kesehatan cluster Neptunus. Misalnya, BufferCacheHitRatio harus selalu tinggi (lebih besar dari 99,9 persen), sedangkan MainRequestQueuePendingRequests harus selalu rendah (idealnya 0 tetapi tergantung pada persyaratan dan toleransi latensi Anda).

  • Pertimbangkan untuk menggunakan replika baca untuk mencapai ketersediaan tinggi di Neptunus. Anda harus memiliki setidaknya dua replika baca di Availability Zone yang berbeda dari instance penulis untuk memastikan instance selalu tersedia untuk menyajikan kueri baca selama peristiwa failover.

  • Secara otomatis menskalakan replika baca berdasarkan metrik pemanfaatan. Untuk informasi selengkapnya, lihat Penskalaan otomatis jumlah replika di klaster DB Amazon Neptunus.

  • Tes failover untuk instans DB Anda untuk memahami berapa lama proses untuk kasus penggunaan Anda.

  • Jika aplikasi Anda perlu bertahan dari AWS Region pemadaman total, pertimbangkan untuk menggunakan database global sebagai bagian dari rencana DR Anda.

Belajar dari semua kegagalan operasional

Infrastruktur penyembuhan diri adalah upaya jangka panjang yang berkembang dalam iterasi karena masalah langka terjadi atau respons tidak seefektif yang diinginkan. Mengadopsi praktik-praktik berikut mendorong fokus ke arah tujuan itu:

  • Mendorong peningkatan dengan belajar dari semua kegagalan.

  • Bagikan apa yang dipelajari di seluruh tim dan organisasi. Jika beberapa tim dalam organisasi menggunakan Neptunus, buat ruang obrolan umum atau grup pengguna untuk berbagi pembelajaran dan praktik terbaik.

Gunakan kemampuan logging untuk memantau aktivitas yang tidak sah atau anomali

Untuk mengamati pola kinerja dan aktivitas anomali, simpan log di Amazon CloudWatch Logs. Pertimbangkan praktik terbaik berikut:

  • Aktifkan pencatatan kueri lambat. Tinjau log secara teratur dan diagnosa mengapa pertanyaan tertentu lambat. Gunakan titik akhir penjelasan dan profil Neptunus untuk Gremlin, SPARQL, atau OpenCypher untuk mendapatkan wawasan mengapa kueri ini lambat.

  • Aktifkan log audit Neptunus, dan tinjau log secara teratur untuk akses atau anomali yang tidak sah.

  • Jika Anda menggunakan pencatatan kueri lambat atau pencatatan audit, aktifkan penerbitan ke CloudWatch Log. Ini akan membantu Anda menghindari kehabisan ruang disk pada instance. Instans Neptunus memiliki kapasitas penyimpanan log terbatas dan akan menimpa file log lama ketika ruang log terlampaui. CloudWatch Log mendukung retensi log jangka panjang. Kemampuan pemantauan yang ditingkatkan di CloudWatch Log akan meningkatkan kemampuan Anda untuk menanyakan log dan mendiagnosis masalah.

  • Untuk memfasilitasi alat analisis yang lebih baik untuk log audit Anda, Anda dapat mengonfigurasi klaster DB Neptunus untuk mempublikasikan data log audit ke grup log di Log. CloudWatch Dengan CloudWatch Log, Anda dapat melakukan analisis real-time dari data log, digunakan CloudWatch untuk membuat alarm dan melihat metrik, dan menggunakan CloudWatch Log untuk menyimpan catatan log Anda dalam penyimpanan yang sangat tahan lama. Untuk informasi selengkapnya, lihat Menerbitkan log Neptunus ke Log Amazon. CloudWatch

  • Neptunus mendukung pencatatan tindakan bidang kontrol menggunakan. AWS CloudTrail Untuk informasi selengkapnya, lihat Mencatat Panggilan API Amazon Neptunus dengan. AWS CloudTrail