Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pola 1: Pipa inferensi ML tanpa server
Di banyak lingkungan perusahaan, tim perlu memasukkan AI ke dalam alur kerja operasional, misalnya, untuk mengklasifikasikan umpan balik pengguna, mendeteksi anomali dalam telemetri yang masuk, atau menilai risiko secara real time. Fitur machine learning (ML) ini sering tertanam dalam aplikasi yang menghadap pelanggan, aplikasi seluler, atau sistem otomatisasi internal.
Namun, beban kerja inferensi ML tradisional biasanya memerlukan yang berikut:
-
Komputasi yang telah disediakan sebelumnya seperti instans dan container Amazon Elastic Compute Cloud (Amazon EC2)
-
Kebijakan penskalaan manual
-
Infrastruktur yang persisten bahkan saat idle
-
Penyebaran dan pemantauan jaringan pipa yang kompleks
Persyaratan ini menghasilkan hal-hal berikut:
-
Sumber daya yang kurang dimanfaatkan untuk inferensi sporadis
-
Kompleksitas operasional untuk pembuatan versi model, failover, dan auto-scaling
-
Peningkatan biaya, terutama untuk beban kerja frekuensi rendah atau meledak
Selain itu, tim teknik sering kekurangan keterampilan infrastruktur ML khusus untuk mempertahankan kompleksitas ini, dan adopsi AI terhenti pada fase prototipe.
Pola inferensi HTML tanpa server: Ringan, didorong oleh peristiwa, dapat diskalakan
Pola pipa inferensi ML tanpa server menggunakan terkelola sepenuhnya, didorong oleh peristiwa Layanan AWS untuk menghilangkan beban infrastruktur. Pendekatan ini memungkinkan alur kerja inferensi yang memicu dan berjalan hanya bila diperlukan dan menskalakan secara otomatis dengan permintaan.
Pola ini sangat ideal untuk melakukan tugas-tugas berikut:
-
Jalankan model ML ringan yang dilatih di Amazon SageMaker atau lokal.
-
Lakukan klasifikasi, penilaian, atau transformasi dalam waktu dekat.
-
Sematkan logika ML di layanan mikro, APIs, atau jaringan pipa konsumsi data.
Arsitektur referensi mengimplementasikan setiap lapisan sebagai berikut:
-
Pemicu peristiwa - Menggunakan Amazon API Gateway untuk permintaan pengguna, Amazon EventBridge untuk acara bisnis, dan Amazon S3 untuk unggahan data.
-
Processing layer — Mengimplementasikan AWS Lambdauntuk menormalkan input, memvalidasi skema, dan memperkaya metadata.
-
Lapisan inferensi — Menyebarkan titik akhir Inferensi SageMaker Tanpa Server untuk melakukan klasifikasi, regresi, atau penilaian.
-
Pasca-pemrosesan - Menggunakan Lambda untuk memformat respons, menyimpan log, dan memancarkan peristiwa baru.
-
Output — Mengimplementasikan API Gateway untuk mengembalikan hasil kepada pengguna atau memublikasikan peristiwa EventBridge untuk pemrosesan hilir.
catatan
Seluruh pipeline ini dapat digunakan sebagai infrastruktur sebagai kode (IAc) dengan menggunakan AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), berversi, dan dapat diamati.
Kasus penggunaan: Klasifikasi sentimen untuk umpan balik pelanggan
Perusahaan e-commerce global ingin mengklasifikasikan umpan balik pelanggan yang tersisa pada ulasan produk atau tiket dukungan untuk mengidentifikasi pencela lebih awal dan memprioritaskan tindak lanjut. Sistem klasifikasi harus memenuhi persyaratan berikut:
-
Lalu lintas sangat bervariasi dengan lonjakan selama periode kampanye.
-
Inferensi harus terjadi secara real time untuk berintegrasi dengan sistem triase pendukung.
-
Modelnya ringan (latensi inferensi 100ms) dan dilatih. SageMaker
Untuk kasus penggunaan ini, solusi pipa inferensi tanpa server terdiri dari langkah-langkah berikut:
-
Umpan balik pengguna dikirimkan ke API Gateway yang kemudian mengirimkannya ke EventBridge.
-
Lambda memproses dan memformat payload teks.
-
Titik akhir Inferensi SageMaker Tanpa Server menjalankan model klasifikasi sentimen.
-
Lambda mengarahkan hasil “negatif” ke antrian eskalasi dukungan.
-
Hasil dicatat di Amazon DynamoDB untuk analitik dan pelatihan ulang.
Nilai bisnis dari pipa inferensi ML tanpa server
Pipa inferensi ML tanpa server memberikan nilai di area berikut:
-
Skalabilitas - Secara otomatis menskalakan ke ribuan kesimpulan per menit tanpa penyetelan manual
-
Efisiensi biaya — Membayar hanya untuk waktu eksekusi dengan biaya nol selama periode idle
-
Kecepatan pengembang - Memungkinkan tim untuk menerapkan alur kerja inferensi end-to-end AI tanpa mengelola infrastruktur
-
Ketahanan - Menyediakan percobaan ulang bawaan, pencatatan, dan eksekusi tanpa kewarganegaraan untuk memastikan kekokohan
-
Observabilitas — Memantau penggunaan model, volume input dan output, dan latensi dengan menggunakan Amazon dan CloudWatch AWS X-Ray
Pipa inferensi ML tanpa server adalah titik masuk bagi banyak organisasi yang ingin mengadopsi AI secara bertahap dan pragmatis. Ini adalah pola ideal untuk mencapai tujuan berikut:
-
AI real-time, latensi rendah
-
Penyebaran model ML tradisional yang hemat biaya
-
Integrasi mulus dengan sistem tanpa server dan berbasis peristiwa modern
Dengan mengabstraksi infrastruktur, tim dapat fokus pada logika bisnis, akurasi model, dan memberikan nilai nyata, tanpa mengorbankan kontrol operasional atau skalabilitas.