View a markdown version of this page

Pilar keunggulan operasional - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pilar keunggulan operasional

Pilar keunggulan operasional dari AWS Well-Architected Framework berfokus pada menjalankan dan memantau sistem, dan terus meningkatkan proses dan prosedur untuk memberikan nilai bisnis. Pilar keunggulan operasional mencakup kemampuan untuk mendukung pengembangan dan menjalankan beban kerja secara efektif, dan untuk mendapatkan wawasan tentang operasi mereka.

Anda dapat mengurangi kompleksitas operasional melalui beban kerja penyembuhan diri, yang mendeteksi dan memperbaiki sebagian besar masalah tanpa campur tangan manusia. Untuk mencapai tujuan ini, ikuti praktik terbaik yang dijelaskan di bagian ini. Gunakan CloudWatch metrik Amazon untuk Amazon TimeStream untuk InfluxDB, titik akhir metrik asli InfluxDB, dan mekanisme untuk merespons saat beban kerja Anda APIs menyimpang dari perilaku yang diharapkan.

Diskusi pilar keunggulan operasional ini berfokus pada bidang-bidang utama berikut:

  • Infrastruktur sebagai kode (IAc)

  • Manajemen perubahan

  • Strategi ketahanan

  • Manajemen insiden

  • Pencatatan dan pemantauan untuk tujuan audit

Mengotomatiskan penerapan dengan menggunakan pendekatan IAc

Praktik terbaik untuk mengotomatiskan penerapan di Timestream untuk InfluxDB dengan menggunakan IAC meliputi:

  • Terapkan IAC untuk menyebarkan Timestream untuk InfluxDB bila memungkinkan. Untuk konfigurasi lingkungan yang konsisten, gunakan AWS CloudFormationtemplat, AWS Cloud Development Kit (AWS CDK), atau HashiCorp Terraform untuk membuat semua sumber daya yang diperlukan untuk instans Anda.

  • Otomatiskan Timestream untuk prosedur operasional InfluxDB, seperti mengubah ukuran instans.

  • Gunakan tag untuk menambahkan metadata ke Timestream Anda untuk sumber daya InfluxDB, dan lacak penggunaan berdasarkan tag. Untuk informasi selengkapnya, lihat Menandai Amazon Timestream untuk InfluxDB.

Buat perubahan yang sering, kecil, dan reversibel

Rekomendasi berikut berfokus pada perubahan kecil dan reversibel untuk meminimalkan kompleksitas dan mengurangi kemungkinan gangguan beban kerja:

  • Simpan templat dan skrip IAC dalam layanan kontrol sumber, seperti atau. GitHub GitLab Jangan menyimpan AWS kredensil dalam kontrol sumber.

  • Memerlukan penyebaran IAC untuk menggunakan layanan integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD), seperti atau. AWS CodeDeployAWS CodeBuild Layanan ini mengkompilasi, menguji, dan menyebarkan kode di lingkungan non-produksi yang berisi instans InfluxDB sementara sebelum memengaruhi instans InfluxDB produksi Anda.

  • Uji infrastruktur dan kueri aplikasi di lingkungan yang lebih rendah sebelum Anda menerapkannya ke produksi. Ini meminimalkan kemungkinan gangguan dan membantu memastikan bahwa mereka bekerja dengan baik dengan beban kerja dan skala Anda.

Mengantisipasi kegagalan

Infrastruktur penyembuhan diri mencontohkan keunggulan operasional dengan mengantisipasi kegagalan dan berusaha menyelesaikan masalah apa pun tanpa intervensi. Rekomendasi berikut membantu Anda mencapai kematangan tersebut dengan Timestream untuk InfluxDB:

  • Gunakan metrik untuk memantau memori, CPU, dan penggunaan penyimpanan Anda. Anda dapat mengatur CloudWatch untuk memberi tahu Anda ketika pola penggunaan berubah atau ketika Anda mendekati kapasitas penerapan Anda. Dengan begitu, Anda dapat mempertahankan performa sistem dan ketersediaan.

  • Tingkatkan instans DB Anda saat Anda mendekati batas sumber daya. Anda akan memiliki buffer dalam penyimpanan dan memori untuk mengakomodasi peningkatan permintaan yang tidak terduga dari aplikasi Anda.

  • Jika beban kerja database Anda membutuhkan I/O lebih dari yang telah Anda sediakan, pemulihan setelah kegagalan atau kegagalan database akan lambat. Untuk meningkatkan I/O capacity of a DB instance, migrate to a different DB instance that has higher I/O kapasitas.

  • Jika aplikasi klien Anda menyimpan data DNS dari instans DB Anda, tetapkan nilai time-to-live (TTL) kurang dari 30 detik. Alamat IP yang mendasari untuk instans DB dapat berubah setelah failover. Caching data DNS untuk waktu yang lama dapat menyebabkan kegagalan koneksi. Aplikasi Anda mungkin mencoba untuk menghubungkan ke alamat IP yang sudah tidak berada dalam layanan.

  • Jika aplikasi Anda perlu bertahan dari Wilayah AWS pemadaman total, pertimbangkan untuk menyiapkan replikasi atau menulis ke Wilayah lain sebagai bagian dari rencana pemulihan bencana (DR) Anda. Memahami keterbatasan saat mengatur replikasi. Untuk informasi selengkapnya tentang replikasi, lihat dokumentasi InfluxDB.

Belajar dari semua kegagalan operasional

Infrastruktur penyembuhan diri adalah upaya jangka panjang yang Anda kembangkan dalam iterasi ketika masalah langka terjadi atau respons tidak seefektif yang Anda inginkan. Untuk fokus pada pencapaian infrastruktur penyembuhan diri, adopsi praktik-praktik berikut:

  • Mendorong peningkatan dengan belajar dari semua kegagalan.

  • Bagikan apa yang dipelajari di seluruh tim dan organisasi. Jika beberapa tim dalam organisasi menggunakan Timestream untuk InfluxDB, buat ruang obrolan umum atau grup pengguna untuk berbagi pelajaran dan praktik terbaik.

Gunakan kemampuan logging untuk memantau aktivitas yang tidak sah atau anomali

Untuk mengamati kinerja dan pola aktivitas yang anomali, pertimbangkan praktik berikut:

  • Aktifkan pengiriman log untuk menyimpan log InfluxDB di Amazon Simple Storage Service (Amazon S3). InfluxDB mencatat informasi catatan yang dapat membantu untuk memeriksa hal-hal berikut:

    Tinjau log untuk akses atau anomali yang tidak sah. Secara keseluruhan, logging menyediakan informasi diagnostik untuk pemecahan masalah.

  • Timestream untuk InfluxDB mendukung pencatatan tindakan bidang kontrol dengan menggunakan. AWS CloudTrail Untuk informasi selengkapnya, lihat Logging Timestream untuk panggilan API InfluxDB dengan. AWS CloudTrail

  • Anda dapat memantauCPUUtilization,MemoryUtilization, dan DiskUtilization metrik dari TimeStream/InfluxDB > < Namespace > in. CloudWatch

Untuk informasi selengkapnya, lihat dokumentasi Timestream for InfluxDB.