Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Membangun MLOps alur kerja dengan menggunakan Amazon SageMaker AI dan Azure DevOps
Deepika Kumar, Sara van de Moosdijk, dan Philips Kokoh Prasetyo, Amazon Web Services
Ringkasan
Operasi pembelajaran mesin (MLOps) adalah seperangkat praktik yang mengotomatiskan dan menyederhanakan alur kerja dan penerapan pembelajaran mesin (ML). MLOps berfokus pada otomatisasi siklus hidup ML. Ini membantu memastikan bahwa model tidak hanya dikembangkan tetapi juga digunakan, dipantau, dan dilatih ulang secara sistematis dan berulang kali. Ini membawa DevOps prinsip ke ML. MLOps menghasilkan penerapan model ML yang lebih cepat, akurasi yang lebih baik dari waktu ke waktu, dan jaminan yang lebih kuat bahwa model tersebut memberikan nilai bisnis yang nyata.
Organizations sering memiliki DevOps alat dan solusi penyimpanan data yang ada sebelum memulai MLOps perjalanan mereka. Pola ini menampilkan cara memanfaatkan kekuatan Microsoft Azure dan. AWS Ini membantu Anda mengintegrasikan Azure DevOps dengan Amazon SageMaker AI untuk membuat MLOps alur kerja.
Solusinya menyederhanakan kerja antara Azure dan. AWS Anda dapat menggunakan Azure untuk pengembangan dan AWS pembelajaran mesin. Ini mempromosikan proses yang efektif untuk membuat model pembelajaran mesin dari awal hingga akhir, termasuk penanganan data, pelatihan, dan penyebaran. AWS Untuk efisiensi, Anda mengelola proses ini melalui DevOps pipa Azure. Solusi ini berlaku untuk operasi model dasar (FMOps) dan operasi model bahasa besar (LLMOps) dalam AI generatif, yang mencakup fine-tuning, database vektor, dan manajemen yang cepat.
Prasyarat dan batasan
Prasyarat
Langganan Azure — Akses ke layanan Azure, seperti Azure DevOps, untuk menyiapkan pipeline integrasi berkelanjutan dan penyebaran berkelanjutan (CI/CD).
Active AWS Active Account — Izin untuk menggunakan yang Layanan AWS digunakan dalam pola ini.
Data — Akses ke data historis untuk melatih model pembelajaran mesin.
Keakraban dengan konsep ML — Pemahaman tentang Python, Notebook Jupyter, dan pengembangan model pembelajaran mesin.
Konfigurasi keamanan — Konfigurasi peran, kebijakan, dan izin yang tepat di Azure dan AWS untuk memastikan transfer dan akses data yang aman.
(Opsional) Database vektor — Jika Anda menggunakan pendekatan Retrieval Augmented Generation (RAG) dan layanan pihak ketiga untuk database vektor, Anda memerlukan akses ke database vektor eksternal.
Batasan
Panduan ini tidak membahas transfer data lintas cloud yang aman. Untuk informasi selengkapnya tentang transfer data lintas cloud, lihat AWS Solusi untuk Hybrid dan Multicloud
. Solusi multicloud dapat meningkatkan latensi untuk pemrosesan data real-time dan inferensi model.
Panduan ini memberikan salah satu contoh MLOps arsitektur multi-akun. Penyesuaian diperlukan berdasarkan pembelajaran dan AWS strategi mesin Anda.
Panduan ini tidak menjelaskan penggunaan AI/ML layanan selain Amazon SageMaker AI.
Beberapa Layanan AWS tidak tersedia di semua Wilayah AWS. Untuk ketersediaan Wilayah, lihat Layanan AWS berdasarkan Wilayah
. Untuk titik akhir tertentu, lihat halaman titik akhir dan kuota Layanan, dan pilih tautan untuk layanan.
Arsitektur
Arsitektur target
Arsitektur target mengintegrasikan Azure dengan DevOps Amazon SageMaker AI, menciptakan alur kerja ML-cloud. Ini menggunakan Azure untuk CI/CD proses dan SageMaker AI untuk pelatihan dan penerapan model ML. Ini menguraikan proses memperoleh data (dari sumber seperti Amazon S3, Snowflake, dan Azure Data Lake) melalui pembuatan dan penyebaran model. Komponen utama termasuk CI/CD pipeline untuk pembuatan dan penerapan model, persiapan data, manajemen infrastruktur, dan Amazon SageMaker AI untuk pelatihan dan fine-tuning, evaluasi, dan penerapan model ML. Arsitektur ini dirancang untuk menyediakan alur kerja ML yang efisien, otomatis, dan terukur di seluruh platform cloud.

Arsitektur terdiri dari komponen-komponen berikut:
Ilmuwan data melakukan eksperimen ML dalam akun pengembangan untuk mengeksplorasi pendekatan yang berbeda untuk kasus penggunaan ML dengan menggunakan berbagai sumber data. Ilmuwan data melakukan pengujian unit dan uji coba, dan untuk melacak eksperimen mereka, mereka dapat menggunakan Amazon SageMaker AI MLflow. Dalam pengembangan model AI generatif, ilmuwan data menyempurnakan model fondasi dari hub model SageMaker AI JumpStart Amazon. Setelah evaluasi model, ilmuwan data mendorong dan menggabungkan kode ke repositori Model Build, yang di-host di Azure. DevOps Repositori ini berisi kode untuk pipa bangunan model multi-langkah.
Di Azure DevOps, pipeline Model Build, yang menyediakan integrasi berkelanjutan (CI), dapat diaktifkan secara otomatis atau manual setelah penggabungan kode ke cabang utama. Di akun Otomasi, ini mengaktifkan pipeline SageMaker AI untuk pra-pemrosesan data, pelatihan model dan fine-tuning, evaluasi model, dan pendaftaran model bersyarat berdasarkan akurasi.
Akun Otomasi adalah akun pusat di seluruh platform MLyang meng-host lingkungan ML (Amazon ECR), model (Amazon S3), metadata model SageMaker (AI Model Registry), fitur (AI Feature Store), pipeline otomatis SageMaker (AI Pipelines), dan wawasan log ML SageMaker (). CloudWatch Untuk beban kerja AI generatif, Anda mungkin memerlukan evaluasi tambahan untuk petunjuk di aplikasi hilir. Aplikasi manajemen yang cepat membantu merampingkan dan mengotomatiskan proses. Akun ini memungkinkan penggunaan kembali aset ML dan memberlakukan praktik terbaik mempercepat pengiriman kasus penggunaan ML.
Versi model terbaru ditambahkan ke SageMaker AI Model Registry untuk ditinjau. Ini melacak versi model dan artefak masing-masing (garis keturunan dan metadata). Ini juga mengelola status model (menyetujui, menolak, atau menunggu), dan mengelola versi untuk penyebaran hilir.
Setelah model terlatih di Model Registry disetujui melalui antarmuka studio atau panggilan API, acara dapat dikirim ke Amazon. EventBridge EventBridge memulai pipa Model Deploy di DevOps Azure.
Pipeline Model Deploy, yang menyediakan continuous deployment (CD), memeriksa sumber dari repositori Model Deploy. Sumber berisi kode, konfigurasi untuk penerapan model, dan skrip pengujian untuk tolok ukur kualitas. Pipeline Model Deploy dapat disesuaikan dengan jenis inferensi Anda.
Setelah pemeriksaan kontrol kualitas, pipeline Model Deploy menyebarkan model ke akun Staging. Akun Staging adalah salinan akun Produksi, dan digunakan untuk pengujian dan evaluasi integrasi. Untuk transformasi batch, pipeline Model Deploy dapat secara otomatis memperbarui proses inferensi batch untuk menggunakan versi model terbaru yang disetujui. Untuk inferensi real-time, tanpa server, atau asinkron, ini mengatur atau memperbarui titik akhir model masing-masing.
Setelah pengujian berhasil di akun Staging, model dapat digunakan ke akun Produksi dengan persetujuan manual melalui pipeline Model Deploy. Pipeline ini menyediakan titik akhir produksi dalam langkah Deploy to production, termasuk pemantauan model dan mekanisme umpan balik data.
Setelah model diproduksi, gunakan alat seperti SageMaker AI Model Monitor dan SageMaker AI Clarify untuk mengidentifikasi bias, mendeteksi penyimpangan, dan terus memantau kinerja model.
Otomatisasi dan skala
Gunakan infrastruktur sebagai kode (IAc) untuk secara otomatis menyebarkan ke beberapa akun dan lingkungan. Dengan mengotomatiskan proses pengaturan MLOps alur kerja, dimungkinkan untuk memisahkan lingkungan yang digunakan oleh tim ML yang mengerjakan proyek yang berbeda. AWS CloudFormationmembantu Anda memodelkan, menyediakan, dan mengelola AWS sumber daya dengan memperlakukan infrastruktur sebagai kode.
Alat
Layanan AWS
Amazon SageMaker AI adalah layanan ML terkelola yang membantu Anda membangun dan melatih model ML dan kemudian menerapkannya ke lingkungan host yang siap produksi.
AWS Glueadalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya. Ini membantu Anda mengkategorikan, membersihkan, memperkaya, dan memindahkan data dengan andal antara penyimpanan data dan aliran data.
Amazon Simple Storage Service (Amazon S3) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data. Dalam pola ini, Amazon S3 digunakan untuk penyimpanan data dan terintegrasi dengan SageMaker AI untuk pelatihan model dan objek model.
AWS Lambdaadalah layanan komputasi yang membantu Anda menjalankan kode tanpa perlu menyediakan atau mengelola server. Ini menjalankan kode Anda hanya bila diperlukan dan skala secara otomatis, jadi Anda hanya membayar untuk waktu komputasi yang Anda gunakan. Dalam pola ini, Lambda digunakan untuk tugas pra-pemrosesan dan pasca-pemrosesan data.
Amazon Elastic Container Registry (Amazon ECR) adalah layanan registri gambar kontainer terkelola yang aman, terukur, dan andal. Dalam pola ini, ia menyimpan wadah Docker yang digunakan SageMaker AI sebagai lingkungan pelatihan dan penerapan.
Amazon EventBridge adalah layanan bus acara tanpa server yang membantu Anda menghubungkan aplikasi Anda dengan data waktu nyata dari berbagai sumber. Dalam pola ini, EventBridge mengatur alur kerja berbasis peristiwa atau berbasis waktu yang memulai pelatihan ulang atau penerapan model otomatis.
Amazon API Gateway membantu Anda membuat, menerbitkan, memelihara, memantau, dan mengamankan REST, HTTP, dan WebSocket APIs dalam skala apa pun. Dalam pola ini, ini digunakan untuk membuat titik masuk tunggal yang menghadap eksternal untuk SageMaker titik akhir AI.
Untuk aplikasi RAG, Anda dapat menggunakan Layanan AWS, seperti Amazon OpenSearch Service dan Amazon RDS for PostgreSQL, untuk menyimpan embeddings vektor yang menyediakan LLM dengan data internal Anda.
Alat-alat lainnya
Azure DevOps
membantu Anda mengelola CI/CD pipeline dan memfasilitasi pembuatan kode, pengujian, dan penerapan. Azure Data Lake Storage
atau Snowflake adalah sumber data pelatihan pihak ketiga yang memungkinkan untuk model ML. Pinecone
, Milvus , atau ChromaDB adalah database vektor pihak ketiga yang memungkinkan untuk menyimpan penyematan vektor.
Praktik terbaik
Sebelum menerapkan komponen apa pun dari MLOps alur kerja multicloud ini, selesaikan aktivitas berikut:
Tentukan dan pahami alur kerja pembelajaran mesin dan alat yang diperlukan untuk mendukungnya. Kasus penggunaan yang berbeda memerlukan alur kerja dan komponen yang berbeda. Misalnya, feature store mungkin diperlukan untuk penggunaan kembali fitur dan inferensi latensi rendah dalam kasus penggunaan personalisasi, tetapi mungkin tidak diperlukan untuk kasus penggunaan lainnya. Memahami alur kerja target, persyaratan kasus penggunaan, dan metode kolaborasi pilihan tim ilmu data diperlukan untuk berhasil menyesuaikan arsitektur.
Buat pemisahan tanggung jawab yang jelas untuk setiap komponen arsitektur. Menyebarkan penyimpanan data di Azure Data Lake Storage, Snowflake, dan Amazon S3 dapat meningkatkan kompleksitas dan biaya. Jika memungkinkan, pilih mekanisme penyimpanan yang konsisten. Demikian pula, hindari menggunakan kombinasi layanan Azure dan AWS, atau kombinasi DevOps layanan Azure dan AWS ML.
Pilih satu atau beberapa model dan kumpulan data yang ada untuk melakukan end-to-end pengujian alur kerja. MLOps Artefak uji harus mencerminkan kasus penggunaan nyata yang dikembangkan tim ilmu data ketika platform memasuki produksi.
Epik
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Identifikasi sumber data. | Berdasarkan kasus penggunaan saat ini dan masa depan, sumber data yang tersedia, dan jenis data (seperti data rahasia), dokumentasikan sumber data yang perlu diintegrasikan dengan MLOps platform. Data dapat disimpan di Amazon S3, Penyimpanan Danau Data Azure, Kepingan Salju, atau sumber lainnya. Untuk beban kerja AI generatif, data mungkin juga menyertakan basis pengetahuan yang mendasari respons yang dihasilkan. Data ini disimpan sebagai embeddings vektor dalam database vektor. Buat rencana untuk mengintegrasikan sumber-sumber ini dengan platform Anda dan mengamankan akses ke sumber daya yang benar. | Insinyur data, Ilmuwan data, arsitek Cloud |
Pilih layanan yang berlaku. | Sesuaikan arsitektur dengan menambahkan atau menghapus layanan berdasarkan alur kerja yang diinginkan dari tim ilmu data, sumber data yang berlaku, dan arsitektur cloud yang ada. Misalnya, insinyur data dan ilmuwan data dapat melakukan pra-pemrosesan data dan rekayasa fitur di SageMaker AI, AWS Glue, atau Amazon EMR. Tidak mungkin ketiga layanan tersebut diperlukan. | Administrator AWS, Insinyur data, ilmuwan data, insinyur ML |
Menganalisis persyaratan keamanan. | Kumpulkan dan dokumentasikan persyaratan keamanan. Ini termasuk menentukan:
Untuk informasi lebih lanjut tentang mengamankan beban kerja AI generatif, lihat Mengamankan AI generatif: Pengantar Matriks Pelingkupan Keamanan AI Generatif | Administrator AWS, arsitek Cloud |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Mengatur AWS Organizations. | Siapkan AWS Organizations di root Akun AWS. Ini membantu Anda mengelola akun berikutnya yang Anda buat sebagai bagian dari MLOps strategi multi-akun. Lihat informasi yang lebih lengkap dalam dokumentasi AWS Organizations. | Administrator AWS |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Buat akun AWS pengembangan. | Buat Akun AWS tempat insinyur data dan ilmuwan data memiliki izin untuk bereksperimen dan membuat model ML. Untuk petunjuk, lihat Membuat akun anggota di organisasi Anda dalam AWS Organizations dokumentasi. | Administrator AWS |
Buat repositori Model Build. | Buat repositori Git di Azure di mana ilmuwan data dapat mendorong pembuatan model dan kode penerapan mereka setelah fase eksperimen selesai. Untuk instruksi, lihat Mengatur repositori Git di dokumentasi | DevOps insinyur, insinyur ML |
Buat repositori Model Deploy. | Buat repositori Git di Azure yang menyimpan kode dan templat penerapan standar. Ini harus menyertakan kode untuk setiap opsi penerapan yang digunakan organisasi, seperti yang diidentifikasi dalam fase desain. Misalnya, ini harus mencakup titik akhir waktu nyata, titik akhir asinkron, inferensi tanpa server, atau transformasi batch. Untuk instruksi, lihat Mengatur repositori Git di dokumentasi | DevOps insinyur, insinyur ML |
Buat repositori Amazon ECR. | Siapkan repositori Amazon ECR yang menyimpan lingkungan ML yang disetujui sebagai gambar Docker. Izinkan ilmuwan data dan insinyur ML untuk menentukan lingkungan baru. Untuk petunjuknya, lihat Membuat repositori pribadi di dokumentasi Amazon ECR. | Insinyur ML |
Siapkan SageMaker AI Studio. | Siapkan SageMaker AI Studio di akun pengembangan sesuai dengan persyaratan keamanan yang ditentukan sebelumnya, alat ilmu data pilihan (seperti MLflow), dan lingkungan pengembangan terintegrasi (IDE) yang disukai. Gunakan konfigurasi siklus hidup untuk mengotomatiskan pemasangan fungsionalitas utama dan menciptakan lingkungan pengembangan yang seragam bagi ilmuwan data. Untuk informasi selengkapnya, lihat Amazon SageMaker AI Studio dan server MLflow pelacakan di dokumentasi SageMaker AI. | Ilmuwan data, insinyur ML, insinyur Prompt |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Buat akun Otomasi. | Buat Akun AWS tempat jaringan pipa dan pekerjaan otomatis berjalan. Anda dapat memberikan akses baca tim ilmu data ke akun ini. Untuk petunjuk, lihat Membuat akun anggota di organisasi Anda dalam AWS Organizations dokumentasi. | Administrator AWS |
Siapkan registri model. | Siapkan Registri Model SageMaker AI di akun Otomasi. Registri ini menyimpan metadata untuk model ML dan membantu ilmuwan data atau tim tertentu untuk menyetujui atau menolak model. Untuk informasi selengkapnya, lihat Mendaftarkan dan menerapkan model dengan Model Registry di dokumentasi SageMaker AI. | Insinyur ML |
Buat pipeline Model Build. | Buat CI/CD pipeline di Azure yang dimulai secara manual atau otomatis saat kode didorong ke repositori Model Build. Pipeline harus memeriksa kode sumber dan membuat atau memperbarui pipa SageMaker AI di akun Otomasi. Pipeline harus menambahkan model baru ke registri model. Untuk informasi selengkapnya tentang membuat pipeline, lihat dokumentasi Azure Pipelines | DevOps insinyur, insinyur ML |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Buat AWS akun pementasan dan penyebaran. | Buat Akun AWS untuk pementasan dan penerapan model ML. Akun ini harus identik untuk memungkinkan pengujian model yang akurat dalam pementasan sebelum pindah ke produksi. Anda dapat memberikan akses baca tim ilmu data ke akun pementasan. Untuk petunjuk, lihat Membuat akun anggota di organisasi Anda dalam AWS Organizations dokumentasi. | Administrator AWS |
Siapkan bucket S3 untuk pemantauan model. | Selesaikan langkah ini jika Anda ingin mengaktifkan pemantauan model untuk model yang diterapkan yang dibuat oleh pipeline Model Deploy. Buat bucket Amazon S3 untuk menyimpan data input dan output. Untuk informasi selengkapnya tentang membuat bucket S3, lihat Membuat bucket di dokumentasi Amazon S3. Siapkan izin lintas akun sehingga pekerjaan pemantauan model otomatis berjalan di akun Otomasi. Untuk informasi selengkapnya, lihat Memantau data dan kualitas model dalam dokumentasi SageMaker AI. | Insinyur ML |
Buat pipa Model Deploy. | Buat CI/CD pipeline di Azure yang dimulai saat model disetujui di registri model. Pipeline harus memeriksa kode sumber dan artefak model, membangun templat infrastruktur untuk menerapkan model di akun pementasan dan produksi, menyebarkan model di akun pementasan, menjalankan pengujian otomatis, menunggu persetujuan manual, dan menerapkan model yang disetujui ke dalam akun produksi. Untuk informasi selengkapnya tentang membuat pipeline, lihat dokumentasi Azure Pipelines | DevOps insinyur, insinyur ML |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Bangun AWS CDK atau CloudFormation templat. | Tentukan AWS Cloud Development Kit (AWS CDK) atau AWS CloudFormation templat untuk semua lingkungan yang perlu digunakan secara otomatis. Ini mungkin termasuk lingkungan pengembangan, lingkungan otomatisasi, dan lingkungan pementasan dan penyebaran. Untuk informasi lebih lanjut, lihat AWS CDKdan CloudFormationdokumentasi. | AWS DevOps |
Buat pipa Infrastruktur. | Buat CI/CD pipeline di Azure untuk penerapan infrastruktur. Administrator dapat memulai pipeline ini untuk membuat yang baru Akun AWS dan menyiapkan lingkungan yang dibutuhkan tim ML. | DevOps insinyur |
Pemecahan Masalah
| Isu | Solusi |
|---|---|
Pemantauan dan deteksi drift yang tidak memadai - Pemantauan yang tidak memadai dapat menyebabkan deteksi masalah kinerja model atau penyimpangan data yang tidak memadai. | Perkuat kerangka kerja pemantauan dengan alat seperti Amazon CloudWatch, SageMaker AI Model Monitor, dan SageMaker AI Clarify. Konfigurasikan peringatan untuk tindakan segera pada masalah yang diidentifikasi. |
Kesalahan pemicu pipa CI — Pipa CI di Azure DevOps mungkin tidak dipicu saat penggabungan kode karena kesalahan konfigurasi. | Periksa pengaturan DevOps proyek Azure untuk memastikan bahwa webhook diatur dengan benar dan menunjuk ke titik akhir AI yang benar. SageMaker |
Tata Kelola — Akun Otomasi pusat mungkin tidak menerapkan praktik terbaik di seluruh platform ML, yang mengarah ke alur kerja yang tidak konsisten. | Audit pengaturan akun Automation, memastikan bahwa semua lingkungan dan model ML sesuai dengan praktik dan kebijakan terbaik yang telah ditentukan sebelumnya. |
Penundaan persetujuan registri model — Ini terjadi ketika ada penundaan dalam memeriksa dan menyetujui model, baik karena orang meluangkan waktu untuk memeriksanya atau karena masalah teknis. | Menerapkan sistem notifikasi untuk mengingatkan pemangku kepentingan model yang menunggu persetujuan, dan merampingkan proses peninjauan. |
Kegagalan peristiwa penerapan model — Peristiwa yang dikirim untuk memulai pipeline penerapan model mungkin gagal, menyebabkan penundaan penerapan. | Konfirmasikan bahwa Amazon EventBridge memiliki izin dan pola peristiwa yang benar untuk menjalankan pipeline Azure DevOps dengan sukses. |
Kemacetan penyebaran produksi — Proses persetujuan manual dapat menciptakan kemacetan, menunda penyebaran model produksi. | Optimalkan alur kerja persetujuan dalam pipeline penerapan model, mempromosikan tinjauan tepat waktu dan saluran komunikasi yang jelas. |
Sumber daya terkait
AWS dokumentasi
Machine Learning Lens (AWS Well Architected Framework)
Perencanaan untuk sukses MLOps (Panduan AWS Preskriptif)
AWS Sumber daya lainnya
MLOps peta jalan dasar untuk perusahaan dengan Amazon SageMaker AI
(posting AWS blog) AWS Summit ANZ 2022 - End-to-end MLOps untuk arsitek (video
) YouTube FMOps/LLMOps: Operasionalkan AI generatif dan perbedaan dengan MLOps
(AWS posting blog) Peran database vektor dalam aplikasi AI generatif
(AWS posting blog)
Dokumentasi Azure