Sfide relative ai dati di origine che influiscono sulle applicazioni RAG

Una delle sfide principali nello sviluppo di un'applicazione Retrieval-Augmented Generation (RAG) ottimale risiede nella natura dei dati o dei documenti grezzi utilizzati. Spesso, le aziende utilizzano documenti esistenti creati come riferimento umano. Questi documenti spesso includono collegamenti ipertestuali e schermate di immagini per promuovere la comprensione. Tuttavia, questi elementi ostacolano il recupero semantico a causa dei limiti dei token di estratto. Ciò si traduce in prestazioni scadenti del retriever.

Di seguito sono elencate le sfide più comuni relative ai documenti non elaborati per un'applicazione RAG ottimale:

Mancanza di formattazione e metadati strutturati: nei documenti raw possono mancare titoli di sezione, sottotitoli o metadati chiari. Ciò rende difficile identificare ed estrarre le informazioni pertinenti. Ad esempio, un documento lungo senza titoli chiari può rendere difficile determinare il contesto di informazioni specifiche.
Linguaggio informale e incoerente: i documenti non elaborati spesso contengono un linguaggio informale o una terminologia incoerente. Ciò può confondere i modelli RAG. Ad esempio, le abbreviazioni che non sono definite nel documento o che sono già note al LLM potrebbero essere utilizzate in tutto il documento.
Verbosità e ridondanza: i documenti non elaborati possono essere dettagliati e contenere informazioni non necessarie o ridondanti. Ciò può sovraccaricare i modelli RAG, portando a risposte meno concise e pertinenti. Gli esempi includono un documento che ripete le stesse informazioni più volte o più documenti che contengono informazioni simili o contraddittorie.
Termini e frasi ambigui: i documenti non elaborati possono contenere termini o frasi ambigui che possono essere interpretati in diversi modi. Questa ambiguità può portare a interpretazioni errate da parte dei modelli RAG e a risposte imprecise. Ad esempio, un documento che utilizza un termine con significati multipli può generare una risposta che non è in linea con il significato previsto.
Iniezione di elementi grafici e collegamenti ipertestuali: i documenti non elaborati che contengono immagini e informazioni sui collegamenti ipertestuali sono adatti al consumo umano. Tuttavia, questi elementi possono consumare il limite dei token di recupero. Il risultato è che alcuni estratti potrebbero essere incompleti. Ad esempio, la grafica e il collegamento ipertestuale URLs vengono restituiti come parte del recupero, che utilizza i token di recupero e mancano le informazioni chiave dei paragrafi successivi.
Mancanza di conoscenze o di contesto specifici del dominio: nei documenti non elaborati possono mancare le conoscenze o il contesto specifici del dominio necessari per una generazione accurata. Ciò può limitare la capacità dei modelli RAG di generare risposte pertinenti e accurate. Un esempio è un documento che fa riferimento a concetti specializzati senza fornire un contesto. Ciò potrebbe portare a risposte non significative nel dominio specificato.

Sebbene questo elenco non sia completo, fornisce alle aziende un punto di partenza per riflettere su cosa non funziona e perché. I documenti potrebbero presentare una o più di queste problematiche. La chiave per ottimizzare un'applicazione RAG consiste nell'utilizzare un set di documenti che rispettino le migliori pratiche di scrittura che ottimizzano il recupero.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Comprendere LLM e RAG

Best practice