OPS04-BP04 Mengimplementasikan telemetri dependensi
Telemetri dependensi sangat penting untuk memantau kondisi dan performa layanan dan komponen eksternal yang diandalkan oleh beban kerja Anda. Hal ini memberikan wawasan berharga tentang keterjangkauan, batas waktu, dan peristiwa penting lainnya yang terkait dengan dependensi seperti DNS, basis data, atau API pihak ketiga. Ketika Anda menginstrumentasi aplikasi Anda agar menghasilkan metrik, log, dan jejak tentang dependensi ini, Anda mendapatkan pemahaman yang lebih jelas tentang potensi kemacetan, masalah performa, atau kegagalan yang dapat memengaruhi beban kerja Anda.
Hasil yang diinginkan: Pastikan dependensi yang diandalkan beban kerja Anda menunjukkan performa sesuai harapan, sehingga Anda dapat secara proaktif mengatasi masalah dan memastikan performa beban kerja yang optimal.
Antipola umum:
-
Mengabaikan dependensi eksternal: Hanya berfokus pada metrik aplikasi internal sambil mengabaikan metrik yang berkaitan dengan dependensi eksternal.
-
Kurangnya pemantauan proaktif: Menunggu masalah muncul alih-alih terus memantau kondisi dan performa dependensi.
-
Pemantauan model silo: Menggunakan beberapa alat pemantauan yang berbeda-beda sehingga wawasan tentang kondisi dependensi menjadi terfragmentasi dan tidak konsisten.
Manfaat menjalankan praktik terbaik ini:
-
Peningkatan keandalan beban kerja: Dengan memastikan bahwa dependensi eksternal terus-menerus tersedia dan berkinerja optimal.
-
Deteksi dan penyelesaian masalah yang lebih cepat: Secara proaktif mengidentifikasi dan menangani masalah pada dependensi sebelum berdampak pada beban kerja.
-
Pandangan menyeluruh: Mendapatkan pandangan yang menyeluruh tentang komponen internal dan eksternal yang memengaruhi kondisi beban kerja.
-
Peningkatan skalabilitas beban kerja: Dengan memahami batas skalabilitas dan karakteristik performa dependensi eksternal.
Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Tinggi
Panduan implementasi
Implementasikan telemetri dependensi dengan memulai dari identifikasi layanan, infrastruktur, dan proses yang digunakan oleh beban kerja Anda. Ukur seperti apa kondisi yang baik ketika dependensi berfungsi sesuai harapan, kemudian tentukan data apa yang akan diperlukan untuk mengukurnya. Dengan informasi tersebut, Anda dapat membuat dasbor dan peringatan yang memberikan wawasan kepada tim operasi Anda tentang status dependensi tersebut. Gunakan alat AWS untuk menemukan dan mengukur dampak ketika dependensi tidak dapat menunjukkan hasil sesuai kebutuhan. Selalu tinjau ulang strategi Anda agar memperhitungkan perubahan prioritas, sasaran, dan wawasan yang diperoleh.
Langkah implementasi
Untuk mengimplementasikan telemetri dependensi secara efektif:
-
Identifikasi dependensi eksternal: Lakukan kolaborasi dengan pemangku kepentingan untuk menentukan dependensi eksternal yang diandalkan oleh beban kerja Anda. Dependensi eksternal dapat mencakup layanan seperti basis data eksternal, API pihak ketiga, rute konektivitas jaringan ke lingkungan lain, dan layanan DNS. Langkah pertama menuju telemetri dependensi yang efektif adalah memiliki pemahaman yang menyeluruh tentang apa saja dependensi tersebut.
-
Kembangkan strategi pemantauan: Setelah Anda memiliki gambaran yang jelas tentang dependensi eksternal Anda, rancanglah strategi pemantauan yang disesuaikan dengan dependensi tersebut. Ini melibatkan pemahaman tingkat kekritisan setiap dependensi, perilaku yang diharapkan, dan perjanjian atau target tingkat layanan (SLA atau SLT) terkait. Siapkan peringatan proaktif untuk memberi tahu Anda tentang perubahan status atau penyimpangan performa.
-
Gunakan pemantauan jaringan: Gunakan Monitor Internet dan Monitor Jaringan, yang memberikan wawasan komprehensif tentang kondisi internet dan jaringan global. Alat-alat ini membantu Anda memahami dan merespons pemadaman, gangguan, atau penurunan kinerja yang memengaruhi dependensi eksternal Anda.
-
Selalu dapatkan informasi terkini dengan Dasbor AWS Health
: Layanan ini memberikan peringatan dan panduan remediasi ketika AWS mengalami peristiwa yang dapat memengaruhi layanan Anda. -
Pantau peristiwa AWS Health dengan aturan Amazon EventBridge, atau integrasikan secara terprogram dengan API AWS Health untuk mengotomatiskan tindakan saat Anda menerima peristiwa AWS Health. Ini bisa berupa tindakan umum, seperti mengirimkan semua pesan peristiwa siklus hidup yang direncanakan ke antarmuka obrolan, atau tindakan tertentu, seperti inisiasi alur kerja di alat manajemen layanan IT.
-
Jika Anda menggunakan AWS Organizations, agregasikan peristiwa AWS Health di seluruh akun.
-
-
Instrumentasikan aplikasi Anda dengan AWS X-Ray
: AWS X-Ray memberikan wawasan tentang bagaimana performa aplikasi dan dependensi yang mendasarinya. Dengan melacak permintaan dari awal hingga akhir, Anda dapat mengidentifikasi kemacetan atau kegagalan dalam layanan eksternal atau komponen yang diandalkan oleh aplikasi Anda. -
Gunakan Amazon DevOps Guru
: Layanan berbasis machine learning ini mengidentifikasi masalah operasional, memprediksi kapan masalah kritis mungkin terjadi, dan merekomendasikan tindakan spesifik yang harus diambil. Layanan ini sangat bermanfaat untuk mendapatkan wawasan tentang dependensi dan memastikan dependensi bukan sumber masalah operasional. -
Pantau secara rutin: Terus pantau metrik dan log yang berkaitan dengan dependensi eksternal. Siapkan peringatan untuk perilaku tak terduga atau performa yang menurun.
-
Lakukan validasi setelah perubahan: Setiap kali ada pembaruan atau perubahan pada salah satu dependensi eksternal, lakukan validasi performa dan periksa keselarasannya dengan persyaratan aplikasi Anda.
Tingkat upaya untuk rencana implementasi: Sedang
Sumber daya
Praktik terbaik terkait:
Dokumen terkait:
Video terkait:
Contoh terkait: