View a markdown version of this page

Tahap 1: Tentukan Bintang Utara Anda - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tahap 1: Tentukan Bintang Utara Anda

Implementasi observabilitas yang sukses bukan hanya tentang operasi dan alat—ini tentang menumbuhkan budaya kepemilikan, perbaikan berkelanjutan, dan pemecahan masalah yang proaktif. Seperti halnya strategi yang berhasil, strategi Anda untuk observabilitas membutuhkan pertimbangan holistik dari tiga pilar: orang, proses, dan teknologi.

Ketika Anda ingin membangun atau meningkatkan postur observabilitas Anda, kami sarankan Anda mulai dengan mendefinisikan apa yang penting, bekerja kembali dari hasil bisnis Anda, dan terus meninjau, menyesuaikan, dan menyelaraskan kembali strategi Anda saat bisnis, tim, dan produk Anda berkembang.

Pada tahap pertama ini, Anda mendefinisikan dan menetapkan Bintang Utara Anda, yang merupakan definisi yang disepakati dan dipahami dengan baik tentang seperti apa penampilan organisasi Anda. Kami menyarankan Anda meninjau kembali beberapa atau semua aktivitas dalam tahap ini seiring perkembangan bisnis Anda, saat Anda meluncurkan produk, aplikasi, atau layanan baru, atau ketika Anda merancang perubahan arsitektur besar, untuk menilai kembali platform observabilitas dan kebutuhan organisasi Anda.

Integrasikan observabilitas lebih awal dalam siklus hidup pengembangan (pendekatan shift-left)

Jadikan observabilitas sebagai tanggung jawab bagi setiap anggota tim teknik, operasi, dan produk, dan perlakukan itu sebagai persyaratan fungsional utama, mirip dengan cara Anda memperlakukan pengujian unit atau keamanan. Ini tidak mengalihkan tanggung jawab dari tim operasi ke tim pengembangan, tetapi menyoroti kolaborasi yang diperlukan di beberapa tim. Sangat membantu bagi tim untuk melakukan kegiatan berikut dalam kolaborasi di awal siklus hidup pengembangan. Anda mungkin ingin melakukan ini berdasarkan per tiket, per fitur, atau per produk.

  • Identifikasi pemangku kepentingan. Siapa pemangku kepentingan dan apa yang penting bagi mereka jika fitur atau produk ini tidak berfungsi seperti yang diharapkan? Ketika Anda mengidentifikasi pemangku kepentingan, pertimbangkan aspek-aspek seperti fungsionalitas, ketersediaan, keamanan, biaya, penjualan, dan penggunaan produk. Pemangku kepentingan dapat mencakup tim Anda, pelanggan produk Anda, pemangku kepentingan bisnis internal, anggota tim operasi platform, dan pengembang aplikasi. Tergantung pada skenario, tim keamanan dan keuangan Anda juga dapat menjadi pemangku kepentingan.

  • Identifikasi hasil utama. Menentukan hasil utama dan dampaknya terhadap bisnis dan pada setiap pemangku kepentingan. Identifikasi keberhasilan dan kegagalan untuk setiap hasil dan pemangku kepentingan. Hasil biasanya didefinisikan sebagai tujuan tingkat layanan (SLOs) dan harus dapat diukur. SLO adalah ukuran untuk setiap hasil. SLO yang baik memiliki nilai target yang harus diupayakan, atau dipertahankan, sebagai tujuan. SLO dapat menjadi ukuran kepuasan pengguna. Indikator tingkat layanan (SLI) adalah pengukuran aktual atau metrik yang digunakan untuk menentukan apakah Anda memenuhi SLO: Ini adalah titik data terukur yang Anda lacak terhadap tujuan Anda. Contohnya termasuk mengurangi MTTR sebesar 60 persen, menjaga ketersediaan aplikasi pada 99,99 persen, atau meningkatkan produktivitas pengembang sebesar 30 persen.

    Mari kita ambil contoh menjaga ketersediaan aplikasi pada 99,99 persen dan menentukan SLO, SLI, dan metrik yang diperlukan untuk mengukur dan memvalidasi keberhasilan. Untuk contoh ini, mari kita pertimbangkan RESTful aplikasi dan tentukan ketersediaan aplikasi sebagai keberhasilan penyelesaian semua permintaan yang masuk. Ini membutuhkan pengukuran jumlah total permintaan ke aplikasi dan status penyelesaian setiap permintaan. Saat Anda menerjemahkan ini ke dalam SLO dan SLI, Anda memerlukan satu metrik yang menangkap permintaan masuk dan metrik lain yang menangkap status permintaan. Jika semua permintaan berhasil diselesaikan, aplikasi dianggap tersedia. Jika satu atau beberapa permintaan mengakibatkan kesalahan, aplikasi dianggap tidak tersedia. Oleh karena itu, SLI akan menjadi jumlah penyelesaian permintaan yang salah, dibagi dengan jumlah permintaan yang masuk dalam interval 5 menit — secara efektif, tingkat kesalahan. Anda dapat menambahkan tujuan ke SLI ini untuk mengubahnya menjadi SLO; misalnya: Berusaha agar tingkat kesalahan kurang dari 0,1 persen di 3 interval 5 menit berturut-turut.

  • Prioritaskan hasil utama.Berdasarkan prioritas yang Anda tetapkan untuk setiap hasil, Anda dapat memilih untuk fokus pada hasil yang memiliki dampak tertinggi terlebih dahulu, daripada melakukan semuanya pada saat yang bersamaan. Mulailah dari yang kecil, ulangi, dan tingkatkan postur observabilitas Anda dengan sedikit demi sedikit. Observabilitas adalah proses yang membutuhkan tinjauan berkelanjutan, audit, peningkatan, dan peningkatan menuju peningkatan kematangan dan manfaat. Prioritas juga dapat memberi Anda kesempatan untuk menentukan tonggak tambahan menuju hasil yang diidentifikasi.

  • Identifikasi instrumentasi yang diperlukan. Apa saja komponen dan fitur terkait dari arsitektur atau implementasi yang dapat mempengaruhi hasil yang penting, seperti yang diidentifikasi pada langkah-langkah sebelumnya? Misalnya, saat Anda menjalankan aplikasi di instans Amazon Elastic Compute Cloud (Amazon EC2), jumlah core dan RAM yang tersedia dapat memengaruhi respons dan throughput aplikasi. Pada tahap ini, mungkin juga membantu untuk menentukan apakah alat atau pustaka yang Anda gunakan sudah menyediakan beberapa instrumentasi ini. Melakukan serangkaian tinjauan awal atau menambahkan pertanyaan seperti berikut ini ke definisi tiket siap (DoR) dapat menjadikan kegiatan ini bagian dari proses standar.

    • Jika operasi ini gagal, apa yang perlu Anda ketahui untuk mengatasi kegagalan tersebut? Bagaimana operasi yang khas atau bermasalah mempengaruhi komponen yang terlibat? Sinyal seperti apa yang harus dikirim oleh operasi ini: log, metrik, atau jejak? Berapa biaya instrumentasi ini dibandingkan dengan nilainya? Agregasi macam apa yang dapat diterima tanpa melanggar? SLOs

    • Apa saja komponen dan dependensi yang dapat menyebabkan kegagalan dalam operasi ini? Bagaimana Anda mengidentifikasi komponen atau ketergantungan mana yang menyebabkan kegagalan? Apa tuas konfigurasi yang berbeda dari komponen dan dependensi ini, dan bagaimana masing-masing mempengaruhi operasi?

    • Berapa granularitas metrik dan laju pengambilan sampel yang diperlukan untuk memastikan bahwa SLI dan SLO dapat diukur secara akurat?

  • Tentukan kriteria keberhasilan. Untuk setiap hasil yang diprioritaskan, tentukan ambang batas yang selaras dengan dampak pertemuan atau tidak memenuhi tujuan. Kriteria keberhasilan memberikan konteks tambahan kepada tim ketika mereka menanggapi peringatan. Mereka juga memberi Anda kemampuan untuk memperkirakan dan membuat pengorbanan terhadap biaya instrumentasi untuk visibilitas yang diperlukan.

Menyiapkan organisasi dan struktur tim yang efektif

Berdasarkan kompleksitas arsitektur dan ukuran bisnis Anda, Anda mungkin perlu membentuk tim khusus yang berfokus pada pengamatan. Tim ini akan bertanggung jawab untuk mengonfigurasi alat observabilitas dan menyiapkan platform observabilitas untuk tim lain. Kami juga merekomendasikan untuk menyiapkan tim khusus jika Anda memilih OpenTelemetry implementasi standar. Dalam organisasi yang lebih kecil, Anda dapat menetapkan observabilitas sebagai tanggung jawab tambahan untuk setiap anggota tim dan juga menunjuk juara observabilitas yang menginjili dan menegakkan praktik terbaik di seluruh tim. Para juara ini menjadi sukarelawan sebagian dari hari mereka untuk menentukan proses dan menetapkan standar untuk organisasi. Mereka bekerja baik sebagai tim self-norming atau dapat dipimpin oleh spesialis observabilitas yang berdedikasi. Diagram berikut menunjukkan bagaimana investasi Anda dapat menentukan pendekatan organisasi Anda.

Cara menentukan tanggung jawab untuk observabilitas berdasarkan investasi.

Juara dapat sepenuhnya tertanam dalam tim (seperti yang ditunjukkan untuk Tim 2 dalam ilustrasi berikut) atau menjadi bagian dari tim yang memungkinkan yang berputar di seluruh tim untuk membangun dan mempromosikan praktik terbaik (Tim 1 dalam ilustrasi).

Menyiapkan tim yang mengaktifkan atau menyematkan juara observabilitas.

Lacak alokasi biaya

Organizations harus menerapkan pelacakan biaya yang komprehensif dan visibilitas di seluruh metrik, log, dan jejak sambil menetapkan akuntabilitas khusus tim untuk penggunaan sumber daya dan biaya. Integrasi praktik operasi keuangan yang berhasil memerlukan sistem pemantauan otomatis dengan peringatan anggaran yang dipasangkan dengan retensi data sistematis dan pengoptimalan pengumpulan. FinOps Tim teknik dan keuangan harus menyelaraskan tujuan mereka melalui dasbor bersama dan ulasan reguler. Organizations mendapat manfaat dari penerapan model chargeback yang jelas dan strategi alokasi biaya untuk mendorong kepemilikan dan akuntabilitas.

Tentukan standar

Identifikasi dan tentukan sinyal dasar dan telemetri yang dibutuhkan aplikasi, termasuk strategi peringatan dan dasbor. Buat daftar periksa atau proses peninjauan formal untuk setiap aplikasi. Situs web AWS Observability Best Practices menyediakan pedoman untuk membuat peringatan dan dasbor, seperti menetapkan ambang batas peringatan yang sesuai, meminimalkan kelelahan peringatan, membuat dasbor dengan konteks yang cukup untuk setiap persona, dan sebagainya. Untuk pengalaman observabilitas yang terhubung dan dikuratori, lihat Sinyal aplikasi dalam dokumentasi Amazon CloudWatch .

Menetapkan proses eskalasi

Penting untuk menetapkan dan menegakkan mekanisme eskalasi, kepemilikan waspada, dan prosedur respons. Kami menyarankan Anda mempromosikan budaya di mana eskalasi tidak disukai.

Meningkatkan keterampilan melalui pelatihan

Identifikasi cara terbaik untuk meningkatkan keterampilan anggota tim yang ada dan yang baru, memperkuat pentingnya observabilitas, dan menumbuhkan budaya perbaikan berkelanjutan. Berdasarkan kebutuhan organisasi Anda, Anda dapat memilih antara pelatihan pra-rekaman, sesuai permintaan atau pelatihan kelas yang disampaikan oleh juara observabilitas atau spesialis. Akun AWS Tim Anda dapat memberikan sesi pelatihan langsung yang mendalam seperti One Observability Workshop atau GameDaysuntuk melatih dan meningkatkan keterampilan observabilitas dan praktik terbaik. Selain itu, gabungkan mekanisme untuk memperkuat praktik terbaik dan untuk mempromosikan standar yang ditentukan oleh organisasi Anda.