Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Percepat MLOps dengan Backstage dan template Amazon SageMaker AI swalayan
Ashish Bhatt, Shashank Hirematt, dan Shivanshu Suryakar, Amazon Web Services
Ringkasan
Organizations yang menggunakan sistem machine learning operations (MLOps) menghadapi tantangan yang signifikan dalam penskalaan, standardisasi, dan mengamankan infrastruktur ML mereka. Pola ini memperkenalkan pendekatan transformatif yang menggabungkan Backstage, portal
Modul IAc untuk pola ini disediakan dalam repositori GitHub AWS AIOps modul
Dengan menggunakan Backstage sebagai platform swalayan dan mengintegrasikan templat SageMaker AI yang telah dikonfigurasi sebelumnya, Anda dapat:
Mempercepat waktu untuk menilai inisiatif ML Anda.
Membantu menegakkan keamanan dan tata kelola yang konsisten.
Menyediakan ilmuwan data dengan lingkungan standar dan sesuai.
Mengurangi overhead operasional dan kompleksitas infrastruktur.
Pola ini memberikan solusi yang mengatasi tantangan kritis MLOps dan juga menyediakan kerangka kerja yang dapat diskalakan dan berulang yang memungkinkan inovasi sambil mempertahankan standar organisasi.
Target audiens
Pola ini ditujukan untuk khalayak luas yang terlibat dalam ML, arsitektur cloud, dan rekayasa platform dalam suatu organisasi. Hal ini mencakup:
Insinyur ML yang ingin menstandarisasi dan mengotomatiskan penerapan alur kerja ML.
Ilmuwan data yang menginginkan akses swalayan ke lingkungan ML yang telah dikonfigurasi dan sesuai.
Insinyur platform yang bertanggung jawab untuk membangun dan memelihara platform pengembang internal dan infrastruktur bersama.
Arsitek cloud yang merancang solusi cloud yang terukur, aman, dan hemat biaya untuk. MLOps
DevOps insinyur yang tertarik untuk memperluas praktik integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) ke penyediaan infrastruktur dan alur kerja ML.
Pemimpin teknis dan manajer yang mengawasi inisiatif ML dan ingin meningkatkan produktivitas tim, tata kelola, dan waktu ke pasar.
Untuk informasi selengkapnya tentang MLOps tantangan, MLOps modul SageMaker AI, dan bagaimana solusi yang disediakan oleh pola ini dapat memenuhi kebutuhan tim ML Anda, lihat bagian Informasi tambahan.
Prasyarat dan batasan
Prasyarat
AWS Identity and Access Management (IAM) peran dan izin
untuk menyediakan sumber daya ke dalam Akun AWS Pemahaman tentang konsep Amazon SageMaker Studio, SageMaker Projects, SageMaker Pipelines, dan SageMaker Model Registry
Pemahaman tentang prinsip-prinsip IAc dan pengalaman dengan alat-alat seperti AWS Cloud Development Kit (AWS CDK)
Batasan
Cakupan template terbatas. Saat ini, solusi hanya mendukung AIOps modul SageMaker terkait AI dari solusi yang lebih luasAIOps .
Modul lain, seperti Ray on Amazon Elastic Kubernetes Service (Amazon EKS), Apache Airflow MLflow, dan fine-tuning untuk Amazon Bedrock, belum tersedia sebagai template Backstage. Pengaturan default yang tidak dapat dikonfigurasi. Template menggunakan konfigurasi default tetap dari AIOps SageMaker modul tanpa kustomisasi. Anda tidak dapat mengubah jenis instans, ukuran penyimpanan, konfigurasi jaringan, atau kebijakan keamanan melalui antarmuka Backstage, yang membatasi fleksibilitas untuk kasus penggunaan tertentu.
AWS-hanya dukungan. Platform ini dirancang khusus untuk AWS penerapan dan tidak mendukung skenario multicloud. Organizations yang menggunakan layanan cloud di luar AWS Cloud tidak dapat menggunakan template ini untuk kebutuhan infrastruktur ML mereka.
Manajemen kredensi manual. Anda harus secara manual memberikan AWS kredensil Anda untuk setiap penerapan. Solusi ini tidak menyediakan integrasi dengan penyedia identitas perusahaan AWS IAM Identity Center, atau rotasi kredenal otomatis.
Manajemen siklus hidup terbatas. Template tidak memiliki fitur manajemen siklus hidup sumber daya yang komprehensif seperti kebijakan pembersihan otomatis, rekomendasi pengoptimalan biaya, dan deteksi penyimpangan infrastruktur. Anda harus mengelola dan memantau sumber daya yang digunakan secara manual setelah pembuatan.
Arsitektur
Diagram berikut menunjukkan arsitektur solusi untuk portal pengembang terpadu yang menstandarisasi dan mempercepat penyebaran infrastruktur ML dengan AI di seluruh lingkungan. SageMaker

Dalam arsitektur ini:
AWS cetak biru modernisasi aplikasi menyediakan penyiapan infrastruktur dengan kluster
Amazon EKS sebagai dasar untuk kerangka kerja Cloud Native Operational Excellence (CNOE). Solusi komprehensif ini mengatasi tantangan manajemen infrastruktur cloud-native yang kompleks dengan menyediakan platform pengembang internal (IDP) yang dapat diskalakan. Cetak biru menawarkan pendekatan terstruktur untuk menyiapkan infrastruktur yang kuat dan fleksibel yang dapat beradaptasi dengan kebutuhan organisasi Anda yang terus berkembang. Kerangka open source CNOE mengkonsolidasikan DevOps alat dan memecahkan fragmentasi ekosistem melalui pendekatan rekayasa platform terpadu. Dengan menyatukan alat dan teknologi yang berbeda, ini menyederhanakan lanskap kompleks pengembangan cloud-native, sehingga tim Anda dapat fokus pada inovasi alih-alih manajemen rantai alat. Kerangka kerja ini menyediakan metodologi standar untuk memilih, mengintegrasikan, dan mengelola alat pengembangan.
Dengan CNOE, Backstage digunakan sebagai solusi out-of-the-box dalam cluster Amazon EKS. Backstage dibundel dengan otentikasi yang kuat melalui Keycloak
dan alur kerja penerapan komprehensif melalui Argo CD. Platform terintegrasi ini menciptakan lingkungan terpusat untuk mengelola proses pengembangan dan menyediakan satu tempat bagi tim untuk mengakses, menyebarkan, dan memantau infrastruktur dan aplikasi mereka di berbagai lingkungan. GitHub Repositori berisi templat AIOps perangkat lunak yang telah dikonfigurasi sebelumnya yang mencakup seluruh SageMaker siklus hidup AI. Template ini memenuhi kebutuhan infrastruktur ML yang penting, termasuk penyediaan SageMaker Studio, pelatihan model, saluran inferensi, dan pemantauan model. Template ini membantu Anda mempercepat inisiatif ML Anda dan memastikan konsistensi di berbagai proyek dan tim.
GitHub Actions
mengimplementasikan alur kerja otomatis yang secara dinamis memicu penyediaan sumber daya melalui utilitas Seed-Farmer. Pendekatan ini mengintegrasikan katalog Backstage dengan repositori AIOps modul dan menciptakan proses penyebaran infrastruktur yang efisien. Otomatisasi mengurangi intervensi manual, meminimalkan kesalahan manusia, dan memastikan penciptaan infrastruktur yang cepat dan konsisten di berbagai lingkungan. AWS CDKIni membantu Anda mendefinisikan dan menyediakan infrastruktur sebagai kode, dan memastikan penyebaran sumber daya yang dapat diulang, aman, dan sesuai di seluruh yang ditentukan. Akun AWS Pendekatan ini memberikan tata kelola maksimum dengan intervensi manual minimal, sehingga Anda dapat membuat templat infrastruktur standar yang dapat dengan mudah direplikasi, dikendalikan versi, dan diaudit.
Alat
Layanan AWS
AWS Cloud Development Kit (AWS CDK)adalah kerangka pengembangan perangkat lunak yang membantu Anda menentukan dan menyediakan AWS Cloud infrastruktur dalam kode.
Amazon Elastic Kubernetes Service (Amazon EKS) membantu Anda menjalankan AWS Kubernetes tanpa perlu menginstal atau memelihara control plane atau node Kubernetes Anda sendiri.
Amazon SageMaker AI adalah layanan ML terkelola yang membantu Anda membangun dan melatih model ML dan kemudian menerapkannya ke lingkungan host yang siap produksi.
Alat-alat lainnya
Backstage
adalah kerangka kerja open source yang membantu Anda membangun portal pengembang internal. GitHub Actions
adalah CI/CD platform yang mengotomatiskan alur kerja pengembangan perangkat lunak, termasuk tugas-tugas seperti membangun, menguji, dan menyebarkan kode.
Repositori kode
Pola ini menggunakan kode dan template dari GitHub repositori berikut:
AIOps platform pengembang internal (IDP) dengan repositori Backstage
SageMaker Modul terkait AI dari repositori AWS AIOps modul
Implementasi
Implementasi ini menggunakan pola penyebaran tingkat produksi untuk Backstage dari rekayasa Modern pada repositori. AWS
Bagian Epik dari pola ini menguraikan pendekatan implementasi. Untuk petunjuk step-by-step penyebaran yang terperinci, lihat panduan penerapan
Penyebaran platform Backstage Awal
Integrasi template SageMaker perangkat lunak dengan Backstage
Mengkonsumsi dan memelihara template Backstage
Panduan penerapan juga mencakup panduan untuk pemeliharaan berkelanjutan, pemecahan masalah, dan penskalaan platform.
Praktik terbaik
Ikuti praktik terbaik ini untuk membantu memastikan keamanan, tata kelola, dan keunggulan operasional dalam implementasi MLOps infrastruktur Anda.
Manajemen Template
Jangan pernah membuat perubahan besar pada template langsung.
Selalu uji pembaruan secara menyeluruh sebelum penerapan produksi.
Pertahankan versi template yang jelas dan terdokumentasi dengan baik.
Keamanan
Pin GitHub Actions ke algoritma hash aman khusus (SHAs) untuk membantu mencegah serangan rantai pasokan.
Gunakan peran IAM dengan hak istimewa paling sedikit dengan izin terperinci.
Simpan kredensyal sensitif di GitHub Rahasia
dan. AWS Secrets Manager Jangan pernah membuat hardcode kredenal di template.
Tata kelola dan pelacakan
Menerapkan standar penandaan sumber daya yang komprehensif.
Aktifkan pelacakan biaya yang tepat dan pemantauan kepatuhan.
Pertahankan jejak audit yang jelas untuk perubahan infrastruktur.
Panduan ini memberikan dasar yang kuat untuk menerapkan praktik terbaik ini dengan menggunakan modul Backstage, SageMaker AI, dan IAc.
Epik
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Menyebarkan Belakang Panggung. | Langkah ini menggunakan cetak biru dalam rekayasa Modern pada AWS Infrastruktur menggunakan Amazon EKS sebagai platform orkestrasi kontainer untuk menerapkan komponen IDP. Arsitektur Amazon EKS mencakup konfigurasi jaringan yang aman untuk menetapkan isolasi jaringan yang ketat dan mengontrol pola akses. Platform ini terintegrasi dengan mekanisme otentikasi untuk membantu mengamankan akses pengguna di seluruh layanan dan lingkungan. | Insinyur platform |
Siapkan templat SageMaker AI Anda. | Langkah ini menggunakan skrip di platform pengembang GitHub AIOps internal (IDP) dengan repositori Backstage Proses ini membuat repositori yang berisi template SageMaker AI yang diperlukan untuk integrasi dengan Backstage. | Insinyur platform |
Integrasikan template SageMaker AI dengan Backstage. | Ikuti petunjuk di bagian integrasi SageMaker templat Langkah ini mengintegrasikan AIOps modul (templat SageMaker AI dari langkah terakhir) ke dalam penerapan Backstage Anda sehingga Anda dapat melayani sendiri kebutuhan infrastruktur ML Anda. | Insinyur platform |
Gunakan template SageMaker AI dari Backstage. | Ikuti petunjuk di bagian Menggunakan SageMaker templat Di portal Backstage, Anda dapat memilih dari templat SageMaker AI yang tersedia, termasuk opsi untuk lingkungan SageMaker Studio, SageMaker notebook, templat SageMaker proyek khusus, dan pipeline penerapan model. Setelah Anda memberikan parameter konfigurasi, platform membuat repositori khusus secara otomatis dan menyediakan AWS sumber daya melalui GitHub Actions dan Seed-Farmer. Anda dapat memantau kemajuan melalui log GitHub Tindakan dan katalog komponen Backstage. | Ilmuwan data, Insinyur data, Pengembang |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Perbarui templat SageMaker AI. | Untuk memperbarui template SageMaker AI di Backstage, ikuti langkah-langkah ini.
| Insinyur platform |
Membuat dan mengelola beberapa versi template. | Untuk melanggar perubahan atau peningkatan, Anda mungkin ingin membuat beberapa versi template SageMaker AI.
| Insinyur platform |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Perluas cakupan template di luar SageMaker AI. | Solusi saat ini hanya mengimplementasikan template SageMaker terkait AI AIOps . Anda dapat memperluas lingkungan ML dengan menambahkan AIOps modul Anda juga dapat menerapkan pola pewarisan template untuk membuat versi khusus dari template dasar. Ekstensibilitas ini memungkinkan Anda mengelola beragam AWS sumber daya dan aplikasi di luar SageMaker AI sambil mempertahankan pengalaman pengembang yang disederhanakan dan mempertahankan standar organisasi Anda. | Insinyur platform |
Gunakan injeksi parameter dinamis. | Template saat ini menggunakan konfigurasi default tanpa penyesuaian, dan menjalankan CLI Seed-Farmer untuk menyebarkan sumber daya dengan variabel default. Anda dapat memperluas konfigurasi default dengan menggunakan injeksi parameter dinamis untuk konfigurasi khusus modul. | Insinyur platform |
Meningkatkan keamanan dan kepatuhan. | Untuk meningkatkan keamanan dalam pembuatan sumber daya AWS, Anda dapat mengaktifkan integrasi kontrol akses berbasis peran (RBAC) dengan sistem masuk tunggal (SSO), SAMP, OpenID Connect (OIDC), dan kebijakan sebagai penegakan kode. | Insinyur platform |
Tambahkan pembersihan sumber daya otomatis. | Anda dapat mengaktifkan fitur untuk kebijakan pembersihan otomatis, dan juga menambahkan deteksi dan remediasi drift infrastruktur. | Insinyur platform |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Hapus infrastruktur Backstage dan sumber daya SageMaker AI. | Setelah selesai menggunakan lingkungan ML, ikuti petunjuk di bagian Pembersihan dan manajemen sumber daya | Insinyur platform |
Penyelesaian Masalah
| Isu | Solusi |
|---|---|
AWS CDK kegagalan bootstrap | Verifikasi AWS kredensil dan konfigurasi Wilayah. |
Masalah akses klaster Amazon EKS | Periksa konfigurasi kubectl dan izin IAM. |
Masalah konektivitas Application Load Balancer | Pastikan bahwa grup keamanan mengizinkan lalu lintas masuk pada port 80/443. |
GitHub masalah integrasi | Verifikasi izin GitHub token dan akses organisasi. |
SageMaker Kegagalan penerapan AI | Periksa Layanan AWS kuota dan izin IAM. |
Sumber daya terkait
Rekayasa platform (dalam panduan AWS Cloud Adoption Framework: Perspektif platform)
Template Perangkat Lunak Backstage
(situs web Backstage) AIOps repositori modul
(kumpulan modul IAc yang dapat digunakan kembali untuk ML) AIOps platform pengembang internal (IDP) dengan repositori Backstage
Informasi tambahan
Tantangan bisnis
Organisasi-organisasi yang memulai atau menskalakan MLOps inisiatif mereka sering menghadapi tantangan bisnis dan teknis ini:
Lingkungan yang tidak konsisten. Kurangnya pengembangan standar dan lingkungan penyebaran membuat kolaborasi menjadi sulit dan meningkatkan risiko penerapan.
Overhead penyediaan manual. Menyiapkan infrastruktur ML secara manual dengan bucket SageMaker Studio, Amazon Simple Storage Service (Amazon S3), peran IAM, CI/CD dan pipeline memakan waktu dan rawan kesalahan, dan mengalihkan ilmuwan data dari tugas inti pengembangan model mereka.
Kurangnya kemampuan untuk ditemukan dan digunakan kembali. Kurangnya katalog terpusat menyulitkan untuk menemukan model, kumpulan data, dan saluran pipa yang ada. Ini mengarah pada pekerjaan yang berlebihan dan kehilangan kesempatan untuk digunakan kembali.
Tata kelola dan kepatuhan yang kompleks. Memastikan bahwa proyek ML mematuhi kebijakan keamanan organisasi, peraturan privasi data, dan standar kepatuhan seperti Health Insurance Portability and Accountability Act (HIPAA) dan General Data Protection Regulation (GDPR) dapat menjadi tantangan tanpa pagar pembatas otomatis.
Waktu yang lambat untuk menilai. Efek kumulatif dari tantangan ini menghasilkan siklus hidup proyek ML yang berlarut-larut dan menunda realisasi nilai bisnis dari investasi ML.
Risiko keamanan. Konfigurasi yang tidak konsisten dan proses manual dapat menimbulkan kerentanan keamanan yang membuatnya sulit untuk menerapkan hak istimewa dan isolasi jaringan yang paling sedikit.
Isu-isu ini memperpanjang siklus pengembangan, meningkatkan overhead operasional, dan menimbulkan risiko keamanan. Sifat berulang dari ML membutuhkan alur kerja berulang dan kolaborasi yang efisien.
Gartner memperkirakan bahwa pada tahun 2026, 80% organisasi rekayasa perangkat lunak akan memiliki tim platform. (Lihat Rekayasa Platform Memberdayakan Pengembang untuk Menjadi Lebih Baik, Lebih Cepat, Lebih Bahagia di situs
MLOps SageMaker modul
AIOps Modul
Menggunakan AIOps modul secara langsung seringkali membutuhkan tim platform untuk menyebarkan dan mengelola templat IAC ini, yang dapat menghadirkan tantangan bagi ilmuwan data yang menginginkan akses layanan mandiri. Menemukan dan memahami template yang tersedia, mengonfigurasi parameter yang diperlukan, dan memicu penerapannya mungkin memerlukan navigasi Layanan AWS konsol atau berinteraksi langsung dengan alat IAc. Ini dapat menciptakan gesekan, meningkatkan beban kognitif bagi ilmuwan data yang lebih suka fokus pada tugas-tugas ML, dan berpotensi menyebabkan parameterisasi atau penyimpangan yang tidak konsisten dari standar organisasi jika templat ini tidak dikelola melalui antarmuka yang terpusat dan ramah pengguna. Mengintegrasikan AIOps modul-modul canggih ini dengan IDP seperti Backstage membantu mengatasi tantangan ini dengan memberikan pengalaman swalayan yang efisien, kemampuan untuk ditemukan, dan kontrol tata kelola yang lebih kuat untuk menggunakan blok bangunan standar ini. MLOps
Backstage sebagai IDP
Platform pengembang internal (IDP) adalah lapisan layanan mandiri yang dibangun oleh tim platform untuk menyederhanakan dan menstandarisasi bagaimana pengembang membangun, menyebarkan, dan mengelola aplikasi. Ini mengabstraksi kompleksitas infrastruktur dan memberi pengembang akses mudah ke alat, lingkungan, dan layanan melalui antarmuka terpadu.
Tujuan utama IDP adalah untuk meningkatkan pengalaman dan produktivitas pengembang dengan:
Mengaktifkan layanan mandiri untuk tugas-tugas seperti pembuatan dan penyebaran layanan.
Mempromosikan konsistensi dan kepatuhan melalui templat standar.
Mengintegrasikan alat di seluruh siklus hidup pengembangan (CI/CD, pemantauan, dan dokumentasi).
Backstage adalah portal pengembang open source yang dibuat oleh Spotify dan sekarang menjadi bagian dari Cloud Native Computing Foundation (CNCF). Ini membantu organisasi membangun IDP mereka sendiri dengan menyediakan platform terpusat dan dapat diperluas untuk mengelola komponen perangkat lunak, alat, dan dokumentasi. Dengan Backstage, pengembang dapat:
Temukan dan kelola semua layanan internal melalui katalog perangkat lunak.
Buat proyek baru dengan menggunakan templat yang telah ditentukan melalui plugin scaffolder.
Akses perkakas terintegrasi seperti CI/CD pipeline, dasbor Kubernetes, dan sistem pemantauan dari satu lokasi.
Pertahankan dokumentasi berbasis penurunan harga yang konsisten melalui. TechDocs
FAQ
Apa perbedaan antara menggunakan template Backstage ini versus menerapkan SageMaker Studio secara manual melalui konsol? SageMaker
Template Backstage memberikan beberapa keunggulan dibandingkan penerapan AWS konsol manual, termasuk konfigurasi standar yang mengikuti praktik terbaik organisasi, penyebaran IAC otomatis menggunakan Seed-Farmer dan, kebijakan keamanan bawaan dan tindakan kepatuhan AWS CDK, dan integrasi dengan alur kerja pengembang organisasi Anda. GitHub Template juga membuat penerapan yang dapat direproduksi dengan kontrol versi, yang membuatnya lebih mudah untuk mereplikasi lingkungan di berbagai tahap (pengembangan, pementasan, produksi) dan menjaga konsistensi di seluruh tim. Selain itu, template mencakup kemampuan pembersihan otomatis dan terintegrasi dengan sistem manajemen identitas organisasi Anda melalui Backstage. Penerapan manual melalui konsol memerlukan AWS keahlian yang mendalam dan tidak menyediakan kontrol versi atau tingkat standardisasi dan tata kelola yang sama dengan yang ditawarkan template. Untuk alasan ini, penerapan konsol lebih cocok untuk eksperimen satu kali daripada lingkungan produksi produksi.
Apa itu Petani Benih dan mengapa solusi ini menggunakannya?
Seed-Farmer adalah alat orkestrasi AWS penyebaran yang mengelola modul infrastruktur dengan menggunakan. AWS CDK Pola ini menggunakan Seed-Farmer karena menyediakan komponen infrastruktur standar yang dapat digunakan kembali yang dirancang khusus untuk AI/ML beban kerja, menangani dependensi kompleks antara secara Layanan AWS otomatis, dan memastikan penerapan yang konsisten di berbagai lingkungan.
Apakah saya perlu menginstal AWS CLI untuk menggunakan template ini?
Tidak, Anda tidak perlu menginstal AWS CLI di komputer Anda. Template berjalan sepenuhnya melalui GitHub Actions di cloud. Anda memberikan AWS kredensi Anda (kunci akses, kunci rahasia, dan token sesi) melalui antarmuka Backstage, dan penerapan terjadi secara otomatis di lingkungan Tindakan. GitHub
Berapa lama waktu yang dibutuhkan untuk menerapkan lingkungan SageMaker Studio?
Penyebaran SageMaker Studio yang khas membutuhkan waktu 15-25 menit untuk diselesaikan. Ini termasuk AWS CDK bootstrap (2-3 menit), pengaturan toolchain Seed-Farmer (3-5 menit), dan pembuatan sumber daya (10-15 menit). Waktu yang tepat tergantung pada Anda Wilayah AWS dan kompleksitas pengaturan jaringan Anda.
Bisakah saya menerapkan beberapa SageMaker lingkungan dalam hal yang sama? Akun AWS
Ya, Anda bisa. Setiap penerapan menciptakan sumber daya dengan nama unik berdasarkan nama komponen yang Anda berikan dalam template. Namun, perhatikan Layanan AWS kuota: Setiap akun dapat memiliki jumlah SageMaker domain terbatas per Wilayah, jadi periksa kuota Anda sebelum Anda membuat beberapa lingkungan.