Pilar keunggulan operasional - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pilar keunggulan operasional

Operational Excellence (OE) mewakili dedikasi untuk menyusun solusi perangkat lunak berkualitas tinggi yang secara konsisten memenuhi dan melampaui harapan pengguna. Pilar keunggulan operasional dari AWS Well-Architected Framework mencakup strategi yang telah terbukti untuk organisasi tim yang efektif, desain beban kerja yang kuat, operasi skala besar yang efisien, dan adaptasi tanpa batas terhadap perubahan persyaratan dari waktu ke waktu. Dengan mematuhi prinsip-prinsip ini, organisasi dapat memastikan bahwa sistem mereka tetap tangguh, berkinerja, dan selaras dengan kebutuhan bisnis yang berkembang.

Area fokus utama untuk menerapkan pilar ini ke lingkungan streaming WorkSpaces Aplikasi Anda:

  • Pemantauan dan observabilitas

  • Otomatisasi dan DevOps

  • Prosedur dan dokumentasi operasional

  • Support dan manajemen insiden

Mengatur tim di sekitar hasil bisnis

Buat model operasi yang selaras dengan cloud dengan komitmen kepemimpinan yang kuat, di mana tujuan bisnis dan indikator kinerja utama (KPIs) mendorong transformasi organisasi melalui orang, proses, dan teknologi yang dioptimalkan.

  • Struktur tim. Bangun tim khusus yang selaras dengan hasil streaming aplikasi. Contoh:

    • Tim manajemen gambar bertanggung jawab atas pengemasan aplikasi dan pengoptimalan gambar.

    • Tim operasi armada mengelola kapasitas, kinerja, dan penskalaan.

    • Tim pengalaman pengguna menangani dukungan dan kepuasan pengguna akhir.

  • KPIs dan metrik. Tentukan dan lacak metrik yang selaras dengan bisnis seperti:

    • Tarif ketersediaan aplikasi

    • Saatnya menyebarkan aplikasi baru

    • Biaya per jam streaming aplikasi

  • Model operasi. Buat proses yang jelas untuk:

    • Orientasi dan pembaruan aplikasi

    • Manajemen kapasitas armada

    • Penyediaan akses pengguna

    • Respon dan resolusi insiden

Menerapkan observabilitas untuk wawasan yang dapat ditindaklanjuti

Menerapkan pemantauan dan observabilitas yang komprehensif untuk melacak KPIs dan kesehatan beban kerja. Prinsip ini memungkinkan keputusan berbasis data dan peningkatan proaktif di seluruh kinerja, keandalan, dan biaya.

Otomatiskan dengan aman jika memungkinkan

Terapkan prinsip infrastruktur sebagai kode (IAc) untuk mengotomatiskan semua aspek operasi beban kerja Anda. Gunakan pagar pembatas untuk membantu memastikan eksekusi yang aman dan konsisten sekaligus mengurangi intervensi manual.

  • Otomatiskan pembuatan dan konfigurasi gambar WorkSpaces Aplikasi dengan menggunakan Image Assistant CLI. Untuk informasi selengkapnya, lihat Membuat gambar WorkSpaces Aplikasi Amazon Anda secara terprogram menggunakan operasi CLI Asisten Gambar di dokumentasi Aplikasi. WorkSpaces

    • Instalasi aplikasi: Gunakan Image Assistant CLI untuk mengotomatiskan instalasi aplikasi selama pembuatan gambar.

    • Pembuatan gambar: Buat gambar WorkSpaces Aplikasi secara terprogram dengan menggunakan perintah Image Assistant CLI.

    • Manajemen konfigurasi: Otomatiskan konfigurasi pengaturan aplikasi default dan parameter peluncuran.

  • Otomatiskan kustomisasi gambar WorkSpaces Aplikasi. Untuk informasi selengkapnya, lihat posting AWS blog Membuat gambar Windows WorkSpaces Aplikasi yang disesuaikan secara otomatis.

  • Terapkan IAc untuk menyebarkan infrastruktur dan komponen aplikasi untuk WorkSpaces Aplikasi. Untuk informasi selengkapnya, lihat posting AWS blog Otomatisasi infrastruktur dan penerapan aplikasi untuk WorkSpaces Aplikasi Amazon dengan Terraform.

  • Menerapkan proses otomatis untuk manajemen armada, termasuk:

    • Penskalaan armada berdasarkan permintaan. Konfigurasikan kebijakan penskalaan otomatis untuk menyesuaikan kapasitas armada secara otomatis berdasarkan metrik pemanfaatan. Untuk informasi selengkapnya, lihat posting AWS blog Gunakan AWS Lambda untuk menyesuaikan langkah penskalaan dan ambang batas untuk Aplikasi Amazon. WorkSpaces

    • Pembaruan gambar dasar. Manfaatkan pembaruan otomatis ke gambar dasar WorkSpaces Aplikasi yang disediakan oleh AWS.

    • Optimalisasi kapasitas. Siapkan ambang batas penskalaan otomatis untuk mengoptimalkan penggunaan sumber daya berdasarkan pola permintaan.

  • Konfigurasikan pagar pembatas untuk mengotomatiskan kontrol keselamatan:

    • Batas ukuran armada maksimum. Tetapkan batas atas kapasitas armada untuk mencegah penyediaan berlebih.

    • Konfigurasi kebijakan penskalaan. Menerapkan penskalaan langkah atau kebijakan penskalaan pelacakan target dengan ambang batas yang sesuai.

    • Kuota layanan. Gunakan kuota AWS layanan sebagai batas bawaan untuk mencegah alokasi sumber daya yang berlebihan.

    • Perlindungan skala. Konfigurasikan perlindungan penskalaan untuk mencegah penghapusan instance aktif selama peristiwa penskalaan.

  • Lakukan pengujian dan validasi, termasuk pembuat gambar, armada, dan pengujian integrasi.

    • Pengujian pembuat gambar:

      • Uji aplikasi langsung di antarmuka pembuat gambar.

      • Verifikasi peluncuran dan fungsionalitas aplikasi.

      • Uji pengaturan dan konfigurasi pengguna.

      • Validasi kompatibilitas aplikasi.

    • Pengujian armada:

      • Uji sesi streaming dari perangkat klien yang berbeda.

      • Verifikasi hak dan akses pengguna.

      • Validasi kinerja aplikasi.

      • Uji pengalaman pengguna untuk elemen dan operasi seperti clipboard, transfer file, dan pencetakan.

    • Pengujian integrasi:

      • Uji Active Directory atau otentikasi berbasis SAM 2.0.

      • Uji folder rumah dan penyimpanan persisten.

      • Uji hak aplikasi.

      • Uji pengalihan perangkat USB (jika dikonfigurasi).

  • Gunakan WorkSpaces Applications Applications Manager untuk mengotomatiskan pengemasan dan penyebaran aplikasi. Untuk informasi selengkapnya, lihat posting AWS blog Streamline onboarding aplikasi dengan manajer aplikasi untuk Aplikasi Amazon WorkSpaces .

  • Otomatiskan penerapan versi aplikasi baru dengan menggunakan pipeline continuous integration dan continuous delivery (CI/CD). Untuk informasi selengkapnya, lihat posting AWS blog Screening Eagle: Optimalkan CI/CD dan pengalaman pengguna akhir di WorkSpaces Aplikasi Amazon.

Buat perubahan yang sering, kecil, dan reversibel

Bangun beban kerja yang digabungkan secara longgar dan dapat diskalakan yang memungkinkan penerapan otomatis skala kecil yang sering dengan risiko minimal dan kemampuan rollback yang mudah.

  • Untuk pembaruan gambar, gunakan pembuatan gambar berversi dan pembaruan tambahan.

    • Pembuatan gambar berversi:

      • Buat gambar baru untuk setiap rangkaian perubahan dengan menggunakan pembuat gambar.

      • Pertahankan beberapa versi gambar untuk mendukung skenario rollback.

      • Gunakan strategi AWS penandaan untuk melacak versi dan atribut gambar.

    • Pembaruan tambahan:

      • Buat perubahan kecil dan bertahap pada aplikasi atau konfigurasi.

      • Uji pembaruan secara menyeluruh di pembuat gambar sebelum Anda membuat gambar baru.

      • Dokumentasikan semua perubahan yang Anda buat di setiap versi gambar baru.

  • Untuk pembaruan armada kontrol:

    • Buat armada baru dengan gambar yang diperbarui untuk pengujian.

    • Ubah atribut armada yang ada tanpa mengganggu sesi aktif.

  • Menetapkan prosedur manajemen perubahan untuk dokumentasi, protokol pengujian, alur kerja persetujuan, dan proses pemantauan.

    • Dokumentasi:

      • Pertahankan log perubahan terperinci untuk semua pembaruan gambar dan armada.

      • Dokumen prosedur pengujian dan hasil untuk setiap perubahan.

      • Gunakan AWS CloudTrailuntuk melacak dan mengaudit perubahan konfigurasi.

    • Protokol pengujian:

      • Menetapkan proses pengujian yang komprehensif untuk semua perubahan.

      • Sertakan fungsionalitas aplikasi, kinerja, dan pengujian pengalaman pengguna.

      • Lakukan pengujian di pembuat gambar sebelum Anda membuat gambar baru.

      • Lakukan pengujian tambahan pada armada non-produksi sebelum penyebaran penuh.

    • Alur kerja persetujuan:

      • Menerapkan proses persetujuan untuk perubahan lingkungan produksi.

      • Tentukan kriteria untuk perubahan yang memerlukan persetujuan versus pembaruan standar.

      • Menetapkan peran dan tanggung jawab untuk persetujuan perubahan.

    • Pemantauan dan validasi:

      • Gunakan Amazon CloudWatch untuk memantau kinerja armada dan aplikasi setelah perubahan.

      • Siapkan peringatan untuk metrik utama untuk mengidentifikasi masalah dengan cepat setelah pembaruan.

      • Lakukan tinjauan pasca-implementasi untuk memvalidasi keberhasilan perubahan dan mengumpulkan pembelajaran.

Perbaiki prosedur operasi sesering mungkin

Terus meningkatkan prosedur operasional melalui tinjauan rutin, pembaruan, dan keterlibatan tim untuk menjaga agar semua pemangku kepentingan tetap terinformasi dan selaras dengan praktik terbaik.

  • Manajemen dokumentasi. Pertahankan dokumentasi prosedur WorkSpaces Aplikasi yang dikendalikan versi saat ini di lokasi pusat untuk memastikan konsistensi operasional dan berbagi pengetahuan di seluruh tim.

    • Dokumentasi yang diperlukan: Menjaga up-to-date dokumentasi untuk operasi WorkSpaces Aplikasi penting untuk pembuatan dan manajemen gambar, operasi armada, dan pemecahan masalah.

    • Tinjauan operasional: Memantau dan meninjau aspek operasional utama, termasuk metrik kinerja dan manajemen insiden.

  • Perbaikan berkelanjutan. Secara sistematis meningkatkan operasi WorkSpaces Aplikasi dengan memasukkan Layanan AWS pembaruan, metrik operasional, dan praktik terbaik yang dipelajari ke dalam prosedur standar.

    • Pembaruan layanan: Memantau catatan rilis WorkSpaces Aplikasi untuk fitur baru, peningkatan layanan, pembaruan keamanan, dan ketersediaan Regional.

    • Praktik terbaik: Tinjau dan gabungkan pembaruan AWS Well-Architected Framework WorkSpaces , praktik terbaik Aplikasi, arsitektur referensi AWS , dan rekomendasi keamanan. AWS

    • Manajemen pengetahuan: Memelihara dan memperbarui prosedur operasi standar, runbook, panduan pemecahan masalah, dan dokumentasi dukungan pengguna.

Mengantisipasi kegagalan

Lakukan pengujian skenario kegagalan secara teratur untuk memahami risiko, memvalidasi prosedur respons, dan meningkatkan kesiapan tim untuk menangani insiden nyata.

  • Pengujian kegagalan. Secara teratur mensimulasikan dan menguji kegagalan seperti kelelahan kapasitas armada, kegagalan peluncuran aplikasi, dan masalah konektivitas jaringan.

    • Kelelahan kapasitas armada:

      • Pantau dan uji perilaku penskalaan armada saat mendekati batas kapasitas.

      • Konfigurasikan CloudWatch alarm untuk CapacityUtilization dan AvailableCapacity metrik.

      • Menerapkan prosedur untuk menangani kendala kapasitas selama penggunaan puncak.

    • Kegagalan peluncuran aplikasi:

      • Uji perilaku peluncuran aplikasi pada instance streaming.

      • Validasi akses dan kinerja aplikasi di berbagai konfigurasi armada.

    • Masalah konektivitas jaringan:

      • Uji kinerja sesi streaming di berbagai kondisi jaringan.

      • Pantau StreamingSessionLatency masalah kualitas koneksi.

      • Pastikan konfigurasi pengaturan VPC dan grup keamanan yang tepat.

  • Prosedur pemulihan. Mengembangkan dan menguji prosedur untuk:

    • Failover armada antara AWS Zona Ketersediaan. Selain itu, mendokumentasikan prosedur untuk penskalaan kapasitas armada, mengelola pembaruan armada, dan menanggapi masalah kesehatan misalnya.

    • Manajemen data pengguna:

      • Konfigurasikan dan uji solusi persistensi dan penyimpanan pengaturan aplikasi untuk folder rumah di Amazon Simple Storage Service (Amazon S3) untuk armada Windows dan sistem file bersama di Amazon Elastic File System (Amazon EFS) untuk armada Linux.

      • Validasi sinkronisasi data antar sesi.

    • Kontinuitas layanan. Menjaga prosedur untuk membuat instance armada baru, mengelola pembaruan gambar, dan menangani pemutusan sesi.

  • Manajemen risiko. Identifikasi dan mitigasi:

    • Kendala kapasitas dengan menetapkan kapasitas minimum armada yang sesuai, mengonfigurasi kebijakan penskalaan otomatis berdasarkan pola permintaan, dan memantau tren pemanfaatan armada dengan menggunakan CloudWatch metrik seperti,, dan. CapacityUtilization InUseCapacity AvailableCapacity

    • Kemacetan kinerja dengan melacak metrik utama seperti StreamingSessionLatency dan mengonfigurasi alarm yang sesuai. CloudWatch

Belajar dari semua peristiwa dan metrik operasional

Menumbuhkan budaya perbaikan berkelanjutan dengan berbagi pelajaran yang dipetik dari peristiwa operasional dan kegagalan di seluruh organisasi. Tekankan dampaknya pada hasil bisnis.

  • Analisis peristiwa. Mendokumentasikan dan menganalisis gangguan layanan, penurunan kinerja, keluhan pengguna, dan masalah kapasitas.

  • Ulasan metrik. Menganalisis pola penggunaan, tren kinerja, metrik biaya, dan data kepuasan pengguna secara teratur.

  • Berbagi pengetahuan. Menetapkan proses untuk sesi pembelajaran tim, dokumentasi praktik terbaik, transfer pengetahuan lintas tim, dan retrospektif insiden.

Gunakan layanan terkelola

Minimalkan overhead operasional dengan menggunakan layanan AWS terkelola dan membangun prosedur standar di sekitarnya. Integrasikan dengan layanan AWS terkelola berikut: