Défis liés aux données sources qui affectent les applications RAG

L'un des principaux défis du développement d'une application de génération augmentée par extraction (RAG) optimale réside dans la nature des données brutes ou des documents utilisés. Les entreprises utilisent souvent des documents existants créés à des fins de référence humaine. Ces documents incluent souvent des hyperliens et des captures d'écran pour favoriser la compréhension. Cependant, ces éléments entravent la récupération sémantique en raison des limites de jetons d'extrait. Cela se traduit par de mauvaises performances du retriever.

Voici les défis les plus courants liés aux documents bruts pour une application RAG optimale :

Absence de formatage structuré et de métadonnées — Les documents bruts peuvent ne pas avoir de titres de section, de sous-titres ou de métadonnées clairs. Il est donc difficile d'identifier et d'extraire les informations pertinentes. Par exemple, un long document sans titres clairs peut compliquer la détermination du contexte de certaines informations.
Langage informel et incohérent — Les documents bruts contiennent souvent un langage informel ou une terminologie incohérente. Cela peut semer la confusion dans les modèles RAG. Par exemple, des abréviations qui ne sont pas définies dans le document ou qui sont déjà connues par le LLM peuvent être utilisées dans l'ensemble d'un document.
Verbosité et redondance — Les documents bruts peuvent être détaillés et contenir des informations inutiles ou redondantes. Cela peut submerger les modèles RAG, ce qui entraîne des réponses moins concises et moins pertinentes. Les exemples incluent un document qui répète les mêmes informations plusieurs fois ou plusieurs documents contenant des informations similaires ou contradictoires.
Termes et expressions ambigus — Les documents bruts peuvent contenir des termes ou des phrases ambigus susceptibles d'être interprétés de différentes manières. Cette ambiguïté peut entraîner des interprétations erronées par les modèles RAG et des réponses inexactes. Par exemple, un document qui utilise un terme ayant plusieurs significations peut donner lieu à une réponse qui ne correspond pas au sens voulu.
Injection d'éléments graphiques et d'hyperliens — Les documents bruts contenant des graphiques et des informations liées à des hyperliens conviennent parfaitement à la consommation humaine. Cependant, ces éléments peuvent consommer la limite de jetons de récupération. Il en résulte que les extraits peuvent être incomplets. Par exemple, les graphiques et les hyperliens URLs sont renvoyés dans le cadre de la récupération, ce qui utilise les jetons de récupération, et les informations clés des paragraphes suivants sont manquantes.
Manque de connaissances ou de contexte spécifiques à un domaine — Les documents bruts peuvent ne pas disposer des connaissances spécifiques au domaine ou du contexte nécessaires pour une génération précise. Cela peut limiter la capacité des modèles RAG à générer des réponses pertinentes et précises. Un exemple est un document qui fait référence à des concepts spécialisés sans fournir de contexte. Cela peut conduire à des réponses qui ne sont pas pertinentes dans le domaine donné.

Bien que cette liste ne soit pas exhaustive, elle fournit aux entreprises un point de départ pour réfléchir à ce qui ne fonctionne pas et pourquoi. Les documents peuvent présenter un ou plusieurs de ces défis. La clé de l'optimisation d'une application RAG est d'utiliser un ensemble de documents conformes aux meilleures pratiques de rédaction qui optimisent la récupération.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Comprendre le LLM et le RAG

Bonnes pratiques