Pola inferensi HTML tanpa server: Ringan, didorong oleh peristiwa, dapat diskalakan Kasus penggunaan: Klasifikasi sentimen untuk umpan balik pelanggan Nilai bisnis dari pipa inferensi ML tanpa server

Pola 1: Pipa inferensi ML tanpa server

Di banyak lingkungan perusahaan, tim perlu memasukkan AI ke dalam alur kerja operasional, misalnya, untuk mengklasifikasikan umpan balik pengguna, mendeteksi anomali dalam telemetri yang masuk, atau menilai risiko secara real time. Fitur machine learning (ML) ini sering tertanam dalam aplikasi yang menghadap pelanggan, aplikasi seluler, atau sistem otomatisasi internal.

Namun, beban kerja inferensi ML tradisional biasanya memerlukan yang berikut:

Komputasi yang telah disediakan sebelumnya seperti instans dan container Amazon Elastic Compute Cloud (Amazon EC2)
Kebijakan penskalaan manual
Infrastruktur yang persisten bahkan saat idle
Penyebaran dan pemantauan jaringan pipa yang kompleks

Persyaratan ini menghasilkan hal-hal berikut:

Sumber daya yang kurang dimanfaatkan untuk inferensi sporadis
Kompleksitas operasional untuk pembuatan versi model, failover, dan auto-scaling
Peningkatan biaya, terutama untuk beban kerja frekuensi rendah atau meledak

Selain itu, tim teknik sering kekurangan keterampilan infrastruktur ML khusus untuk mempertahankan kompleksitas ini, dan adopsi AI terhenti pada fase prototipe.

Pola inferensi HTML tanpa server: Ringan, didorong oleh peristiwa, dapat diskalakan

Pola pipa inferensi ML tanpa server menggunakan terkelola sepenuhnya, didorong oleh peristiwa Layanan AWS untuk menghilangkan beban infrastruktur. Pendekatan ini memungkinkan alur kerja inferensi yang memicu dan berjalan hanya bila diperlukan dan menskalakan secara otomatis dengan permintaan.

Pola ini sangat ideal untuk melakukan tugas-tugas berikut:

Jalankan model ML ringan yang dilatih di Amazon SageMaker atau lokal.
Lakukan klasifikasi, penilaian, atau transformasi dalam waktu dekat.
Sematkan logika ML di layanan mikro, APIs, atau jaringan pipa konsumsi data.

Arsitektur referensi mengimplementasikan setiap lapisan sebagai berikut:

Pemicu peristiwa - Menggunakan Amazon API Gateway untuk permintaan pengguna, Amazon EventBridge untuk acara bisnis, dan Amazon S3 untuk unggahan data.
Processing layer — Mengimplementasikan AWS Lambdauntuk menormalkan input, memvalidasi skema, dan memperkaya metadata.
Lapisan inferensi — Menyebarkan titik akhir Inferensi SageMaker Tanpa Server untuk melakukan klasifikasi, regresi, atau penilaian.
Pasca-pemrosesan - Menggunakan Lambda untuk memformat respons, menyimpan log, dan memancarkan peristiwa baru.
Output — Mengimplementasikan API Gateway untuk mengembalikan hasil kepada pengguna atau memublikasikan peristiwa EventBridge untuk pemrosesan hilir.

catatan

Seluruh pipeline ini dapat digunakan sebagai infrastruktur sebagai kode (IAc) dengan menggunakan AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), berversi, dan dapat diamati.

Kasus penggunaan: Klasifikasi sentimen untuk umpan balik pelanggan

Perusahaan e-commerce global ingin mengklasifikasikan umpan balik pelanggan yang tersisa pada ulasan produk atau tiket dukungan untuk mengidentifikasi pencela lebih awal dan memprioritaskan tindak lanjut. Sistem klasifikasi harus memenuhi persyaratan berikut:

Lalu lintas sangat bervariasi dengan lonjakan selama periode kampanye.
Inferensi harus terjadi secara real time untuk berintegrasi dengan sistem triase pendukung.
Modelnya ringan (latensi inferensi 100ms) dan dilatih. SageMaker

Untuk kasus penggunaan ini, solusi pipa inferensi tanpa server terdiri dari langkah-langkah berikut:

Umpan balik pengguna dikirimkan ke API Gateway yang kemudian mengirimkannya ke EventBridge.
Lambda memproses dan memformat payload teks.
Titik akhir Inferensi SageMaker Tanpa Server menjalankan model klasifikasi sentimen.
Lambda mengarahkan hasil “negatif” ke antrian eskalasi dukungan.
Hasil dicatat di Amazon DynamoDB untuk analitik dan pelatihan ulang.

Nilai bisnis dari pipa inferensi ML tanpa server

Pipa inferensi ML tanpa server memberikan nilai di area berikut:

Skalabilitas - Secara otomatis menskalakan ke ribuan kesimpulan per menit tanpa penyetelan manual
Efisiensi biaya — Membayar hanya untuk waktu eksekusi dengan biaya nol selama periode idle
Kecepatan pengembang - Memungkinkan tim untuk menerapkan alur kerja inferensi end-to-end AI tanpa mengelola infrastruktur
Ketahanan - Menyediakan percobaan ulang bawaan, pencatatan, dan eksekusi tanpa kewarganegaraan untuk memastikan kekokohan
Observabilitas — Memantau penggunaan model, volume input dan output, dan latensi dengan menggunakan Amazon dan CloudWatch AWS X-Ray

Pipa inferensi ML tanpa server adalah titik masuk bagi banyak organisasi yang ingin mengadopsi AI secara bertahap dan pragmatis. Ini adalah pola ideal untuk mencapai tujuan berikut:

AI real-time, latensi rendah
Penyebaran model ML tradisional yang hemat biaya
Integrasi mulus dengan sistem tanpa server dan berbasis peristiwa modern

Dengan mengabstraksi infrastruktur, tim dapat fokus pada logika bisnis, akurasi model, dan memberikan nilai nyata, tanpa mengorbankan kontrol operasional atau skalabilitas.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Merancang arsitektur AI tanpa server

Pola 2: Orkestrasi AI Agen dengan Amazon Bedrock