Persiapan data Pengambilan Generasi Augmented Penyetelan halus Dataset evaluasi Loop umpan balik

Siklus hidup data dalam AI generatif

Menerapkan AI generatif dalam suatu perusahaan melibatkan siklus hidup data yang sejajar dengan siklus hidup tradisional. AI/ML Namun, ada pertimbangan unik di setiap tahap. Fase kunci meliputi persiapan data, integrasi ke dalam alur kerja model (seperti pengambilan atau fine-tuning), pengumpulan umpan balik, dan pembaruan yang sedang berlangsung. Bagian ini mengeksplorasi tahapan siklus hidup data yang saling berhubungan ini dan merinci proses penting, tantangan, dan praktik terbaik yang harus dipertimbangkan organisasi saat mengembangkan dan menerapkan solusi AI generatif.

Bagian ini berisi topik berikut:

Persiapan dan pembersihan data untuk pra-pelatihan
Pengambilan Generasi Augmented
Fine-tuning dan pelatihan khusus
Dataset evaluasi
Data yang dibuat pengguna dan loop umpan balik

Persiapan dan pembersihan data untuk pra-pelatihan

Sampah masuk, sampah keluar adalah konsep bahwa input berkualitas buruk menghasilkan output berkualitas rendah yang sama. Sama seperti dalam proyek AI apa pun, kualitas data adalah make-or-break faktornya. AI generatif sering dimulai dengan kumpulan data besar, tetapi volume saja tidak cukup. Pembersihan, penyaringan, dan preprocessing yang cermat sangat penting.

Pada tahap ini, tim data mengumpulkan data mentah, seperti kumpulan besar teks atau koleksi gambar. Kemudian, mereka menghilangkan kebisingan, kesalahan, dan bias. Misalnya, menyiapkan teks untuk LLM mungkin melibatkan menghilangkan duplikat, membersihkan informasi pribadi yang sensitif, dan menyaring konten beracun atau tidak relevan. Tujuannya adalah untuk membuat kumpulan data berkualitas tinggi yang benar-benar mewakili pengetahuan atau gaya yang harus ditangkap model. Data juga dapat dinormalisasi atau diformat menjadi struktur yang cocok untuk konsumsi model. Misalnya, Anda dapat membuat token teks, menghapus tag HTML, atau menormalkan resolusi gambar.

Dalam AI generatif, persiapan ini bisa sangat intensif karena skala. Model seperti Anthropic Claude dilatih pada ratusan miliar token (Wikipedia) yang berasal dari berbagai sumber data yang tersedia untuk umum dan berlisensi. Bahkan persentase kecil dari data buruk dapat memiliki efek besar pada output, termasuk konten ofensif atau kesalahan faktual. Misalnya, berbagai penyedia LLM melaporkan mengecualikan konten komunitas Reddit dari kumpulan data pelatihan mereka karena posting tersebut sebagian besar terdiri dari urutan panjang huruf M untuk meniru suara microwave. Posting-posting ini mengganggu pelatihan model dan kinerja.

Pada tahap ini, beberapa perusahaan mengadopsi augmentasi data untuk meningkatkan cakupan skenario tertentu. Augmentasi data adalah proses mensintesis data pelatihan tambahan. Untuk informasi selengkapnya, lihat Sintesis data dalam panduan ini.

Saat melatih model pada data yang disiapkan dan diproses sebelumnya, Anda dapat menggunakan teknik mitigasi untuk mengatasi bias secara khusus. Teknik termasuk menanamkan prinsip-prinsip etika dalam arsitektur model, yang dikenal sebagai AI konstitusional. Teknik lain adalah debiasing permusuhan, yang menantang model selama pelatihan untuk menegakkan hasil yang lebih adil di berbagai kelompok. Akhirnya, setelah pelatihan, Anda dapat membuat penyesuaian pasca-pemrosesan untuk menyempurnakan model melalui fine-tuning. Ini dapat membantu memperbaiki bias yang tersisa dan meningkatkan keadilan secara keseluruhan.

Pengambilan Generasi Augmented

Model ML statis membuat prediksi murni dari set pelatihan tetap. Namun, banyak solusi AI generatif perusahaan menggunakan Retrieval Augmented Generation (RAG) untuk menjaga pengetahuan model tetap terkini dan relevan. RAG melibatkan menghubungkan LLM ke repositori pengetahuan eksternal yang mungkin berisi dokumen perusahaan, database, atau sumber data lainnya.

Dalam praktiknya, RAG mengharuskan implementasi pipa data tambahan. Ini memperkenalkan tingkat kompleksitas tertentu dan melibatkan langkah-langkah berurutan berikut:

Tertelan dan penyaringan - Kumpulkan data berkualitas tinggi dan relevan dari beragam sumber. Menerapkan mekanisme penyaringan untuk mengecualikan informasi yang berlebihan atau tidak relevan, dan pastikan bahwa dataset relevan dengan domain aplikasi. Perhatikan bahwa pembaruan rutin dan pemeliharaan repositori data sangat penting untuk menjaga keakuratan dan relevansi informasi.
Parsing dan ekstraksi — Setelah konsumsi data, data harus diurai untuk mengekstrak konten yang bermakna. Gunakan parser yang dapat menangani berbagai format data, seperti HTML, JSON, atau teks biasa. Parser mengubah data mentah menjadi bentuk terstruktur. Proses ini memfasilitasi manipulasi dan analisis data yang lebih mudah pada tahap selanjutnya.
Strategi chunking — Bagilah data menjadi potongan-potongan yang dapat dikelola, atau potongan. Langkah ini sangat penting untuk pengambilan dan pemrosesan yang efisien. Strategi chunking termasuk tetapi tidak terbatas pada hal-hal berikut:
- Chunking berbasis token standar — Pisahkan teks menjadi segmen ukuran tetap berdasarkan jumlah token tertentu. Ini adalah strategi chunking paling dasar, tetapi membantu mempertahankan panjang potongan yang seragam.
- Hirarchical chunking — Mengatur konten ke dalam hierarki (seperti chapter, section, atau paragraf) untuk melestarikan hubungan kontekstual. Strategi ini meningkatkan pemahaman model tentang struktur data.
- Chunking semantik — Segmen teks berdasarkan koherensi semantik. Pastikan setiap potongan mewakili ide atau topik yang lengkap. Strategi ini dapat meningkatkan relevansi informasi yang diambil.
Pemilihan model penyematan — Database vektor menyimpan embeddings, yang merupakan representasi numerik dari potongan teks yang mempertahankan makna dan konteksnya. Embedding adalah format yang model ML dapat memahami dan membandingkan untuk melakukan pencarian semantik. Memilih model embedding yang tepat sangat penting untuk menangkap esensi semantik potongan data. Pilih model yang selaras dengan kebutuhan spesifik domain Anda dan yang dapat menghasilkan embeddings yang secara akurat mencerminkan makna konten. Memilih model penyematan terbaik untuk kasus penggunaan Anda dapat meningkatkan relevansi dan akurasi kontekstual.
Algoritma pengindeksan dan pencarian — Indeks penyematan dalam database vektor yang dioptimalkan untuk pencarian kesamaan. Gunakan algoritma pencarian yang secara efisien menangani data berdimensi tinggi dan mendukung pengambilan cepat informasi yang relevan. Teknik seperti pencarian perkiraan tetangga terdekat (ANN) dapat secara signifikan meningkatkan kecepatan pengambilan tanpa mengorbankan akurasi.

Pipa RAG secara inheren kompleks. Mereka membutuhkan beberapa tahap, berbagai tingkat integrasi, dan tingkat keahlian yang tinggi untuk merancang secara efektif. Ketika diterapkan dengan benar, mereka dapat secara signifikan meningkatkan kinerja dan akurasi solusi AI generatif. Namun, memelihara sistem ini membutuhkan sumber daya yang intensif dan memerlukan pemantauan, optimasi, dan penskalaan yang berkelanjutan. Kompleksitas ini telah menyebabkan munculnya RAGOps, pendekatan khusus untuk mengoperasionalkan dan mengelola jaringan pipa RAG secara efisien, untuk mempromosikan keandalan dan efektivitas jangka panjang.

Untuk informasi selengkapnya tentang RAG AWS, lihat sumber daya berikut:

Pengambilan opsi dan arsitektur Augmented Generation pada AWS(Panduan Preskriptif)AWS
Memilih database AWS vektor untuk kasus penggunaan RAG (Panduan AWS Preskriptif)
Terapkan kasus penggunaan RAG AWS dengan menggunakan Terraform dan Amazon Bedrock AWS (Panduan Preskriptif)

Fine-tuning dan pelatihan khusus

Fine-tuning dapat mengambil dua bentuk yang berbeda: fine-tuning domain dan task fine-tuning. Masing-masing melayani tujuan yang berbeda dalam mengadaptasi model yang telah dilatih sebelumnya. Penyesuaian domain tanpa pengawasan melibatkan pelatihan lebih lanjut model pada badan teks khusus domain untuk membantunya lebih memahami bahasa, terminologi, dan konteks yang unik untuk bidang atau industri tertentu. Misalnya, Anda dapat menyempurnakan LLM khusus media pada kumpulan artikel internal dan jargon untuk mencerminkan nada suara perusahaan dan kosakata khusus.

Sebaliknya, fine-tuning tugas yang diawasi berfokus pada pengajaran model untuk melakukan fungsi atau format output tertentu. Misalnya, Anda mungkin mengajarkannya untuk menjawab pertanyaan pelanggan, meringkas dokumen hukum, atau mengekstrak data terstruktur. Ini biasanya membutuhkan persiapan dataset berlabel yang berisi contoh input dan output yang diinginkan untuk tugas target.

Kedua pendekatan tersebut membutuhkan pengumpulan dan kurasi data fine-tuning yang cermat. Untuk penyetelan tugas, kumpulan data diberi label secara eksplisit. Untuk fine-tuning domain, Anda dapat menggunakan teks tidak berlabel untuk meningkatkan pemahaman bahasa umum dalam konteks yang relevan. Terlepas dari pendekatannya, kualitas data adalah yang terpenting. Kumpulan data yang bersih, representatif, dan berukuran tepat sangat penting untuk mempertahankan dan meningkatkan kinerja model. Biasanya, kumpulan data fine-tuning jauh lebih kecil daripada yang digunakan untuk pra-pelatihan awal tetapi harus dipilih dengan cermat untuk memastikan adaptasi model yang efektif.

Alternatif untuk fine-tuning adalah distilasi model, teknik yang melibatkan pelatihan model yang lebih kecil dan khusus untuk mereplikasi kinerja model yang lebih besar dan lebih umum. Alih-alih menyempurnakan LLM yang ada, distilasi model mentransfer pengetahuan dengan melatih model ringan (siswa) pada output yang dihasilkan oleh model asli yang lebih kompleks (guru). Pendekatan ini sangat bermanfaat ketika efisiensi komputasi menjadi prioritas karena model suling membutuhkan lebih sedikit sumber daya sambil mempertahankan kinerja khusus tugas.

Alih-alih membutuhkan data pelatihan khusus domain yang ekstensif, distilasi model bergantung pada kumpulan data sintetis atau yang dihasilkan guru. Model kompleks menghasilkan contoh berkualitas tinggi untuk dipelajari oleh model ringan. Ini mengurangi beban kurasi data kepemilikan tetapi masih menuntut pemilihan yang cermat dari contoh pelatihan yang beragam dan tidak bias untuk mempertahankan kemampuan generalisasi. Selain itu, distilasi dapat membantu mengurangi risiko yang terkait dengan privasi data karena Anda dapat melatih model ringan pada data yang dilindungi tanpa secara langsung mengekspos catatan sensitif.

Meskipun demikian, sebagian besar organisasi tidak mungkin melakukan fine-tuning atau distilasi karena seringkali tidak diperlukan untuk kasus penggunaan mereka dan memperkenalkan lapisan tambahan kompleksitas operasional dan teknis. Banyak kebutuhan bisnis dapat dipenuhi secara efektif menggunakan model pondasi pra-terlatih, kadang-kadang dengan penyesuaian ringan melalui rekayasa cepat atau alat seperti RAG. Fine-tuning membutuhkan investasi yang cukup besar dalam hal kemampuan teknis, kurasi data, dan tata kelola model. Ini membuatnya lebih cocok untuk aplikasi perusahaan yang sangat terspesialisasi atau berskala besar di mana upaya tersebut dibenarkan.

Dataset evaluasi

Mengembangkan strategi data yang kuat sangat penting saat membangun kumpulan data evaluasi untuk solusi AI generatif. Kumpulan data evaluasi ini bertindak sebagai tolok ukur untuk menilai kinerja model. Mereka harus berlabuh dalam data kebenaran dasar yang andal, yang merupakan data yang diketahui akurat, terverifikasi, dan mewakili hasil dunia nyata. Misalnya, data kebenaran dasar mungkin merupakan data nyata yang Anda tahan dari pelatihan atau kumpulan data fine-tuning. Data kebenaran dasar dapat berasal dari beberapa sumber, dan masing-masing menyajikan tantangannya sendiri.

Pembuatan data sintetis menyediakan cara yang dapat diskalakan untuk membuat kumpulan data terkontrol untuk menguji kemampuan model tertentu tanpa mengekspos informasi sensitif. Namun, efektivitasnya tergantung pada seberapa dekat ia mereplikasi distribusi kebenaran dasar yang asli.

Atau, kumpulan data yang dikuratori secara manual, sering disebut kumpulan data emas, berisi pasangan tanya jawab yang diverifikasi secara ketat atau contoh berlabel. Kumpulan data ini dapat berfungsi sebagai data kebenaran dasar berkualitas tinggi untuk evaluasi model yang kuat. Namun, kumpulan data ini memakan waktu dan intensif sumber daya untuk dikompilasi. Memasukkan interaksi pelanggan aktual sebagai data evaluasi dapat lebih meningkatkan relevansi dan cakupan data kebenaran dasar, meskipun ini membutuhkan perlindungan privasi yang ketat dan kepatuhan terhadap peraturan (seperti dengan GDPR dan CCPA).

Strategi data yang komprehensif harus menyeimbangkan pendekatan ini. Untuk mengevaluasi model AI generatif secara efektif, pertimbangkan faktor-faktor seperti kualitas data, keterwakilan, pertimbangan etis, dan keselarasan dengan tujuan bisnis. Untuk informasi selengkapnya, lihat Amazon Bedrock Evaluations.

Data yang dibuat pengguna dan loop umpan balik

Setelah sistem AI generatif digunakan, ia mulai menghasilkan output dan berinteraksi dengan pengguna. Interaksi ini sendiri menjadi sumber data yang berharga. Data yang dibuat pengguna mencakup pertanyaan dan permintaan pengguna, tanggapan model, dan umpan balik eksplisit apa pun yang diberikan pengguna (seperti peringkat). Perusahaan harus memperlakukan ini sebagai bagian dari siklus hidup data AI generatif dan memasukkannya kembali ke dalam proses pemantauan dan peningkatan. Yang penting, data yang dibuat pengguna dapat dimasukkan ke dalam kumpulan data kebenaran dasar Anda. Ini membantu mengoptimalkan petunjuk lebih lanjut dan meningkatkan kinerja keseluruhan aplikasi Anda dari waktu ke waktu. Alasan penting lainnya adalah untuk mengelola penyimpangan model dan kinerja dari waktu ke waktu. Setelah digunakan di dunia nyata, model mungkin mulai menyimpang dari domain pelatihannya. Contohnya adalah bahasa gaul baru yang muncul dalam kueri atau pengguna yang mengajukan pertanyaan tentang topik yang muncul yang tidak ada dalam data pelatihan. Pemantauan data langsung ini dapat mengungkapkan penyimpangan data, di mana distribusi input bergeser, yang berpotensi menurunkan akurasi model.

Untuk mengatasi hal ini, organisasi membuat loop umpan balik dengan menangkap interaksi pengguna dan secara berkala melatih ulang atau menyempurnakan model pada sampel terbaru dari mereka. Terkadang, Anda cukup menggunakan umpan balik untuk menyesuaikan permintaan dan data pengambilan. Misalnya, jika asisten chatbot internal secara konsisten berhalusinasi jawaban tentang produk yang baru dirilis, tim mungkin mengumpulkan pasangan Tanya Jawab yang gagal tersebut dan menyertakan informasi yang benar sebagai pelatihan tambahan atau data pengambilan.

Dalam beberapa kasus, pembelajaran penguatan dari umpan balik manusia (RLHF) digunakan untuk lebih menyelaraskan LLM selama fase pasca-pelatihan atau fine-tuning. Ini membantu model menghasilkan respons yang lebih mencerminkan preferensi dan nilai manusia. Teknik pembelajaran penguatan (RL) melatih perangkat lunak untuk membuat keputusan yang memaksimalkan penghargaan, membuat hasilnya lebih akurat. RLHF menggabungkan umpan balik manusia dalam fungsi penghargaan, sehingga model ML dapat melakukan tugas yang lebih selaras dengan tujuan, keinginan, dan kebutuhan manusia. Untuk informasi selengkapnya tentang penggunaan RLHF di Amazon SageMaker AI, lihat Meningkatkan RLHF Anda LLMs di Amazon SageMaker di blog AI. AWS

Bahkan tanpa RLHF formal, pendekatan yang lebih sederhana adalah tinjauan manual dari sebagian kecil output model secara berkelanjutan, mirip dengan jaminan kualitas. Kuncinya adalah pemantauan, observabilitas, dan pembelajaran berkelanjutan dibangun ke dalam proses. Untuk informasi selengkapnya tentang cara mengumpulkan dan menyimpan umpan balik manusia dari aplikasi AI generatif AWS, lihat Panduan untuk Umpan Balik dan Analisis Pengguna Chatbot AWS di Perpustakaan Solusi AWS .

Untuk mencegah atau mengatasi penyimpangan, perusahaan perlu merencanakan pembaruan model berkelanjutan, yang dapat mengambil beberapa bentuk. Salah satu pendekatannya adalah menjadwalkan fine-tuning reguler atau pra-pelatihan berkelanjutan. Misalnya, Anda dapat memperbarui model setiap bulan dengan data internal terbaru, kasus dukungan, atau artikel berita. Selama pra-pelatihan berkelanjutan, model bahasa pra-terlatih dilatih lebih lanjut tentang data tambahan untuk meningkatkan kinerjanya, terutama dalam domain atau tugas tertentu. Proses ini melibatkan mengekspos model ke data teks baru yang tidak berlabel, memungkinkannya untuk menyempurnakan pemahamannya dan beradaptasi dengan informasi baru tanpa memulai dari awal. Untuk membantu proses yang berpotensi kompleks itu, Amazon Bedrock memungkinkan Anda melakukan fine-tuning dan pra-pelatihan berkelanjutan dalam lingkungan yang sepenuhnya aman dan terkelola. Untuk informasi selengkapnya, lihat Menyesuaikan model di Amazon Bedrock dengan data Anda sendiri menggunakan fine-tuning dan pra-pelatihan lanjutan di Blog Berita. AWS

Dalam skenario di mana Anda menggunakan off-the-shelf model dengan RAG, Anda dapat mengandalkan layanan cloud AI, seperti Amazon Bedrock. Layanan ini menawarkan upgrade model reguler saat dirilis dan menambahkannya ke katalog yang tersedia. Ini membantu Anda memperbarui solusi Anda untuk menggunakan versi terbaru dari model dasar ini.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Perbedaan data

Pertimbangan keamanan data