Perbedaan data antara AI generatif dan ML tradisional

Lanskap kecerdasan buatan ditandai dengan perbedaan mendasar antara pendekatan pembelajaran mesin tradisional dan sistem AI generatif modern, terutama dalam cara mereka memproses dan memanfaatkan data. Analisis komprehensif ini mengeksplorasi tiga dimensi kunci dari evolusi teknologi ini: perbedaan struktural antara tipe data, persyaratan pemrosesannya, dan beragam modalitas data yang dapat ditangani oleh sistem AI modern. Ini juga menyoroti bagaimana data sintetis yang dibuat oleh AI generatif muncul sebagai sumber data pelatihan baru. Data sintetis memungkinkan untuk menerapkan kasus penggunaan ML tradisional yang sebelumnya dibatasi oleh kelangkaan data dan kendala privasi data. Memahami perbedaan ini sangat penting bagi organisasi karena membantu Anda menavigasi kompleksitas manajemen data, pelatihan model, dan aplikasi praktis di berbagai industri.

Data terstruktur dan tidak terstruktur

Model ML tradisional dan sistem AI generatif modern berbeda secara signifikan dalam kebutuhan data mereka dan sifat data yang mereka tangani.

ML tradisional menggunakan data yang diatur dalam tabel atau skema tetap atau kumpulan data gambar dan audio yang dikuratori yang memiliki anotasi. Contohnya termasuk model prediktif yang menganalisis data tabular atau visi komputer klasik. Sistem ini sering mengandalkan kumpulan data terstruktur dan berlabel. Untuk pembelajaran yang diawasi, setiap titik data biasanya dilengkapi dengan label atau target eksplisit, seperti gambar berlabel cat atau deretan data penjualan yang memiliki nilai target.

Sebaliknya, model AI generatif berkembang pada data yang tidak terstruktur atau semi-terstruktur. Ini termasuk model bahasa besar (LLMs) dan visi generatif atau model audio. Mereka tidak memerlukan label eksplisit untuk pra-pelatihan, yaitu ketika mereka mempelajari pemahaman bahasa umum dari kumpulan data yang besar dan beragam. Perbedaan ini adalah kunci—model generatif dapat menelan dan belajar dari sejumlah besar teks atau gambar tanpa pelabelan manual. Ini adalah sesuatu yang tidak dapat dilakukan oleh ML tradisional yang diawasi.

Untuk unggul dalam tugas atau domain tertentu, pra-pelatihan ini LLMs memerlukan pelatihan khusus tugas, yang sering disebut fine-tuning. Ini melibatkan pelatihan lebih lanjut model yang telah dilatih sebelumnya pada kumpulan data yang lebih kecil dan khusus dengan instruksi atau pasangan penyelesaian. Dengan cara ini, menyempurnakan model AI generatif seperti proses pelatihan yang diawasi untuk model ML tradisional.

Modalitas data yang beragam

Model AI generatif modern memproses dan menghasilkan berbagai tipe data: teks, kode, gambar, audio, video, dan bahkan kombinasi, yang dikenal sebagai data multimodal. Misalnya, model yayasan seperti Anthropic Claude, dilatih tentang data tekstual (halaman web, buku, artikel) dan bahkan repositori kode yang besar. Model visi generatif, seperti Amazon Nova Canvas atau Stable Diffusion, belajar dari gambar yang sering dipasangkan dengan teks (keterangan atau label). Model audio generatif mungkin menggunakan data gelombang suara atau transkrip untuk menghasilkan ucapan atau musik.

Sistem AI generatif semakin multimodal. Sistem ini dapat memproses dan menghasilkan kombinasi teks, gambar, audio, dengan kemampuan untuk menangani teks dan media yang tidak terstruktur dalam skala besar. Mereka dapat mempelajari nuansa bahasa, visi, dan suara yang tidak dapat dilakukan oleh MS data berstruktur tradisional. Fleksibilitas ini kontras dengan model ML yang khas, yang biasanya berspesialisasi dalam satu tipe data pada satu waktu. Misalnya, model pengklasifikasi gambar tidak dapat menghasilkan teks, atau model pemrosesan bahasa alami (NLP) yang dilatih untuk analisis sentimen tidak dapat membuat gambar.

Bahkan LLMs memiliki batasan. Ketika datang untuk memproses data tabular, seperti file CSV, LLMs menghadapi tantangan penting selama inferensi. Keterbatasan Mengungkap Model Bahasa Besar dalam Pencarian Informasi dari Tabel menyoroti studi yang LLMs sering berjuang dengan memahami struktur tabel dan mengekstraksi informasi secara akurat. Penelitian ini menemukan bahwa kinerja model berkisar dari sedikit memuaskan hingga tidak memadai, mengungkapkan pemahaman yang buruk tentang struktur tabel. Desain yang melekat LLMs berkontribusi pada keterbatasan ini. Mereka terutama dilatih pada data teks sekuensial, yang melengkapi mereka untuk memprediksi dan menghasilkan konten berbasis teks. Namun, pelatihan ini tidak diterjemahkan dengan mulus ke menafsirkan data tabel, di mana memahami hubungan antara baris dan kolom sangat penting. Akibatnya, LLMs dapat salah menafsirkan konteks atau signifikansi data numerik dalam tabel, yang mengarah ke analisis yang tidak akurat.

Intinya, strategi data perusahaan untuk AI generatif harus memperhitungkan konten yang jauh lebih tidak terstruktur daripada sebelumnya. Organizations perlu mengevaluasi isi teks mereka (dokumen, email, basis pengetahuan), repositori kode, arsip audio dan video, dan sumber data tidak terstruktur lainnya — bukan hanya tabel yang tertata rapi di gudang data mereka.

Sintesis data untuk ML tradisional

AI generatif dapat mengatasi beberapa hambatan lama yang dihadapi oleh pembelajaran mesin tradisional, terutama yang terkait dengan kelangkaan data dan kendala privasi. Dengan menggunakan model dasar untuk menghasilkan data sintetis —kumpulan data buatan yang sangat mirip dengan distribusi dunia nyata—organisasi sekarang dapat membuka kasus penggunaan ML yang sebelumnya di luar jangkauan karena kelangkaan data, masalah privasi, dan biaya tinggi yang terkait dengan pengumpulan dan anotasi kumpulan data besar.

Dalam perawatan kesehatan, misalnya, gambar medis sintetis telah digunakan untuk menambah kumpulan data yang ada. Ini dapat meningkatkan model diagnostik sambil menjaga kerahasiaan pasien. Di sektor keuangan, data sintetis dapat membantu Anda mensimulasikan skenario pasar, yang membantu penilaian risiko dan perdagangan algoritmik tanpa mengekspos informasi sensitif. Data sintetis yang mensimulasikan beragam kondisi mengemudi menguntungkan pengembangan kendaraan otonom. Ini memfasilitasi pelatihan sistem visi komputer dalam skenario yang menantang untuk ditangkap dalam kehidupan nyata. Dengan menggunakan model dasar untuk pembuatan data sintetis, organisasi dapat meningkatkan kinerja model ML, mematuhi peraturan privasi data, dan membuka kasus penggunaan baru di berbagai industri.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pengantar

Siklus hidup data