Bonnes pratiques en matière de documentation pour les applications RAG

Le développement d'une application RAG (Retrieval-Augmented Generation) réussie nécessite une prise en compte attentive de divers facteurs liés aux documents afin d'optimiser ses performances. Les meilleures pratiques présentées dans cette section sont sélectionnées sur la base de l'expérience de création de systèmes RAG avec de nombreux dirigeants d'organisations. Voici quelques bonnes pratiques clés en matière de documents afin d'améliorer l'efficacité de votre application RAG :

Utilisez correctement les titres et les sous-titres — L'organisation de votre contenu à l'aide de titres et de sous-titres clairs améliore la lisibilité et aide les modèles RAG à comprendre la structure de vos documents. Cette pratique permet aux modèles de mieux naviguer et d'extraire les informations des documents, ce qui améliore la qualité des réponses générées.
Assurez-vous que la numérotation est séquentielle — Lorsque vous utilisez des listes numérotées, il est important de maintenir une numérotation correcte pour éviter toute confusion. Assurez-vous que chaque élément de la liste est numéroté de manière séquentielle sans sauter de chiffres. Cela permet de maintenir la clarté et la cohérence de votre contenu.
Ajouter des transitions entre les éléments d'une liste — La fourniture de transitions entre les éléments d'une liste à puces ou numérotée aide le LLM à parcourir le contenu. Par exemple, vous pouvez utiliser des phrases telles que « Après avoir terminé l'étape 2, faites... » pour relier les idées et améliorer le flux d'informations.
Remplacer les tables : évitez d'utiliser des tables. Formatez ces informations sous forme de listes à puces à plusieurs niveaux ou dans une syntaxe à niveau plat. La syntaxe à niveau plat consiste à organiser des éléments ou des éléments au même niveau hiérarchique, sans niveaux de subordination imbriqués. Ces structures aident LLMs à digérer les informations. Comme la plupart des documents indexés sont lus de gauche à droite, la syntaxe à niveau plat permet aux informations de suivre les informations de manière plus cohérente sans qu'il soit nécessaire de faire référence à une dimension supplémentaire. Ce format est plus propice aux applications RAG car il présente les informations de manière structurée et facile à digérer.
Prétraitez les informations graphiques pour plus d'efficacité — Le mode multimodal LLMs peut ingérer à la fois des images et du texte. Réduisez la résolution des images, supprimez les images redondantes et décrivez le contenu des éléments graphiques au format texte. Ces mesures améliorent le contexte significatif, évitent de consommer des jetons inutilement et améliorent l'accessibilité des modèles RAG.
Ajoutez des démarreurs de session pour les requêtes courantes : lorsque vous répondez à des questions ou à des tâches courantes, telles que « Comment commander un logiciel ? » , ajoutez un démarreur de session qui permet au lecteur d'accéder au processus. Par exemple, vous pouvez ajouter « Si vous souhaitez commander un logiciel, suivez les étapes ci-dessous... ». Cela permet de créer une correspondance sémantique élevée, ce qui aide le LLM à construire une réponse cohérente.
Ajouter un résumé à chaque section — Après chaque titre ou sous-titre, ajoutez un résumé bref et concis du contenu de cette section. Cela peut augmenter la couverture sémantique et renforcer les points clés. Cela améliore la précision de la recherche de similarité dans l'espace d'intégration, améliorant ainsi les performances de l'application RAG. Cela est particulièrement utile si le document est destiné à la fois au LLM et à la consommation humaine ou si des éléments tabulaires et graphiques sont nécessaires.
Homonymie — Les documents doivent être concis et ciblés. LLMs générer des réponses basées sur des extraits extraits, afin que la désambiguïsation aide le modèle à utiliser des informations claires et pertinentes. Cela se traduit par des réponses plus précises et informatives.
Définissez des abréviations et définissez le contexte : ils LLMs sont formés sur de grandes quantités de données Internet et, la plupart du temps, ils n'ont pas le contexte des documents internes d'une entreprise. Par conséquent, le fait de définir le contexte, de définir des abréviations et d'éviter ou de définir une terminologie spécifique à l'entreprise aide le LLM à comprendre les données de votre entreprise. Cela aide le LLM à répondre aux questions avec plus de précision et peut aider à prévenir les hallucinations.
Restructurez les documents volumineux en documents plus petits pour un balisage et une indexation efficaces : évitez d'indexer un document volumineux contenant plusieurs sous-rubriques. Envisagez de diviser le document volumineux en documents plus petits et autonomes dotés de titres clairs. Cela améliore l'indexation et le balisage.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Défis liés aux données sources

FAQ