Differenze di dati tra AI generativa e ML tradizionale

Il panorama dell'intelligenza artificiale è caratterizzato da una distinzione fondamentale tra gli approcci tradizionali di apprendimento automatico e i moderni sistemi di intelligenza artificiale generativa, in particolare nel modo in cui elaborano e utilizzano i dati. Questa analisi completa esplora tre dimensioni chiave di questa evoluzione tecnologica: le differenze strutturali tra i tipi di dati, i relativi requisiti di elaborazione e le diverse modalità di dati che i moderni sistemi di intelligenza artificiale possono gestire. Sottolinea inoltre come i dati sintetici creati dall'intelligenza artificiale generativa stiano emergendo come nuova fonte di dati di formazione. I dati sintetici consentono di implementare casi d'uso del machine learning tradizionali che in precedenza erano limitati dalla scarsità di dati e dai vincoli di privacy dei dati. Comprendere queste distinzioni è fondamentale per le organizzazioni perché aiuta a orientarsi tra le complessità della gestione dei dati, della formazione sui modelli e delle applicazioni pratiche in vari settori.

Questa sezione contiene i seguenti argomenti:

Dati strutturati e non strutturati
Diverse modalità di gestione dei dati
Sintetizzazione dei dati per il machine learning tradizionale

Dati strutturati e non strutturati

I modelli ML tradizionali e i moderni sistemi di intelligenza artificiale generativa divergono in modo significativo nei requisiti in materia di dati e nella natura dei dati che gestiscono.

Il machine learning tradizionale utilizza dati organizzati in tabelle o schemi fissi o set di dati audio e immagini curati con annotazioni. Gli esempi includono modelli predittivi che analizzano dati tabulari o la classica visione artificiale. Questi sistemi si basano spesso su set di dati strutturati ed etichettati. Per quanto riguarda l'apprendimento supervisionato, ogni punto dati di solito viene fornito con un'etichetta o un obiettivo espliciti, ad esempio un'immagine etichettata cat o una riga di dati di vendita con un valore obiettivo.

Al contrario, i modelli di intelligenza artificiale generativa prosperano su dati non strutturati o semistrutturati. Ciò include modelli linguistici di grandi dimensioni (LLMs) e modelli di visione o audio generativi. Non richiedono etichette esplicite per la formazione preliminare, vale a dire quando apprendono la comprensione generale del linguaggio a partire da un set di dati enorme e diversificato. Questa distinzione è fondamentale: i modelli generativi possono assimilare e apprendere da grandi quantità di testo o immagini senza etichettatura manuale. Questo è qualcosa che il machine learning tradizionale e supervisionato non può fare.

Per eccellere in compiti o domini specifici, i professionisti già formati LLMs richiedono una formazione specifica, spesso chiamata messa a punto. Implica l'ulteriore addestramento del modello pre-addestrato su un set di dati più piccolo e specializzato con istruzioni o coppie di completamento. In questo modo, la messa a punto di un modello di intelligenza artificiale generativa è come il processo di formazione supervisionata per un modello di machine learning tradizionale.

Diverse modalità di gestione dei dati

I moderni modelli di intelligenza artificiale generativa elaborano e producono un'ampia gamma di tipi di dati: testo, codice, immagini, audio, video e persino combinazioni, note come dati multimodali. Ad esempio, i modelli di base come Anthropic Claude vengono addestrati su dati testuali (pagine Web, libri, articoli) e persino su ampi archivi di codice. I modelli di visione generativa, come Amazon Nova Canvas o Stable Diffusion, apprendono da immagini che sono spesso abbinate a testo (didascalie o etichette). I modelli audio generativi potrebbero utilizzare dati o trascrizioni delle onde sonore per generare voce o musica.

I sistemi di intelligenza artificiale generativa sono sempre più multimodali. Questi sistemi possono elaborare e produrre combinazioni di testo, immagini, audio, con la capacità di gestire testo e contenuti multimediali non strutturati su larga scala. Possono apprendere le sfumature del linguaggio, della visione e del suono che il machine learning tradizionale con dati strutturati non è in grado di acquisire. Questa flessibilità contrasta con i modelli ML tipici, che di solito sono specializzati in un tipo di dati alla volta. Ad esempio, un modello di classificazione delle immagini non può generare testo, oppure un modello di elaborazione del linguaggio naturale (NLP) addestrato per l'analisi del sentiment non può creare immagini.

Hanno persino dei limiti. LLMs Quando si tratta di elaborare dati tabulari, come i file CSV, è necessario LLMs affrontare notevoli sfide durante l'inferenza. Lo studio Uncovering Limitations of Large Language Models in Information Seeking from Tables evidenzia che LLMs spesso è difficile comprendere le strutture delle tabelle ed estrarre con precisione le informazioni. La ricerca ha rilevato che le prestazioni dei modelli variavano da marginalmente soddisfacenti a inadeguate, rivelando una scarsa conoscenza delle strutture delle tabelle. Il design intrinseco di contribuisce a queste limitazioni. LLMs Sono formati principalmente su dati di testo sequenziali, che li mettono in grado di prevedere e generare contenuti basati su testo. Tuttavia, questa formazione non si traduce perfettamente nell'interpretazione dei dati tabulari, dove la comprensione delle relazioni tra righe e colonne è fondamentale. Di conseguenza, LLMs può interpretare erroneamente il contesto o la rilevanza dei dati numerici all'interno delle tabelle, con conseguenti analisi imprecise.

In sostanza, una strategia di dati aziendali per l'intelligenza artificiale generativa deve tenere conto di molti più contenuti non strutturati rispetto a prima. Le organizzazioni devono valutare il loro corpo di testo (documenti, e-mail, knowledge base), gli archivi di codice, gli archivi audio e video e altre fonti di dati non strutturate, non solo le tabelle ben organizzate nel loro data warehouse.

Sintetizzazione dei dati per il machine learning tradizionale

L'intelligenza artificiale generativa può superare alcune barriere di lunga data incontrate dall'apprendimento automatico tradizionale, in particolare quelle legate alla scarsità di dati e ai vincoli di privacy. Utilizzando modelli di base per generare dati sintetici, ovvero set di dati artificiali che imitano da vicino le distribuzioni del mondo reale, le organizzazioni possono ora sbloccare casi d'uso del machine learning che in precedenza erano irraggiungibili a causa della scarsità di dati, dei problemi di privacy e degli elevati costi associati alla raccolta e all'annotazione di set di dati di grandi dimensioni.

Nel settore sanitario, ad esempio, sono state utilizzate immagini mediche sintetiche per ampliare i set di dati esistenti. Ciò può migliorare i modelli diagnostici salvaguardando al contempo la riservatezza dei pazienti. Nel settore finanziario, i dati sintetici possono aiutarvi a simulare scenari di mercato, il che aiuta nella valutazione del rischio e nella negoziazione algoritmica senza divulgare informazioni sensibili. I dati sintetici che simulano diverse condizioni di guida favoriscono lo sviluppo di veicoli autonomi. Facilita l'addestramento dei sistemi di visione artificiale in scenari difficili da catturare nella vita reale. Utilizzando modelli di base per la generazione di dati sintetici, le organizzazioni possono migliorare le prestazioni dei modelli di machine learning, rispettare le normative sulla privacy dei dati e sbloccare nuovi casi d'uso in vari settori.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Introduzione

Ciclo di vita dei dati