Rédaction des meilleures pratiques pour optimiser les applications RAG

Ivan Cui et Samantha Stuart, Amazon Web Services

Juillet 2025 (historique du document)

Les grands modèles linguistiques (LLMs) ont révolutionné le domaine de l'intelligence artificielle grâce à leur remarquable capacité à comprendre et à générer du texte de type humain. Cependant, ils sont confrontés à une limite importante : ils ne peuvent travailler qu'avec les connaissances contenues dans leurs données d'entraînement. C'est là que la génération augmentée de récupération (RAG) est utile. Il propose une solution qui combine LLMs des sources de connaissances externes, telles que les données et les documents de votre organisation. Grâce à un processus en deux étapes impliquant la récupération d'informations et la génération de réponses, RAG permet aux systèmes d'IA d'accéder à des up-to-date informations provenant de diverses sources et de les intégrer, ce qui se traduit par des réponses plus précises et informées qui comblent le fossé entre les connaissances des modèles statiques et les besoins d'informations dynamiques du monde réel.

Comment optimiser le contenu à récupérer dans une application basée sur RAG ? Ce guide fournit les meilleures pratiques pour vous aider à optimiser le formatage et le style de rédaction du contenu textuel de la base de connaissances. L'optimisation du contenu améliore le contexte qui aide les applications RAG à comprendre les informations spécifiques aux tâches avec plus de précision. Lorsque le système récupère un contenu très pertinent et précis, la qualité de la réponse du LLM s'améliore. L'optimisation du processus de diffusion du contexte au niveau du système s'appelle l'ingénierie du contexte, et elle constitue un élément essentiel des architectures AGENTIC RAG. Dans un RAG agentic, une ou plusieurs LLMs raisons supplémentaires et agissez sur les demandes d'admission avant l'exécution du RAG. Cela facilite un processus de livraison d'informations en plusieurs étapes. Alors que les architectures RAG deviennent de plus en plus complexes, l'optimisation du contenu source reste le moyen le plus direct de fournir un contexte clair à LLMs. Ces meilleures pratiques sont conçues pour vous aider à optimiser l'investissement de votre organisation dans une application RAG.

Public visé

Ce guide est destiné aux ingénieurs en intelligence artificielle, aux scientifiques des données, aux ingénieurs de données ou aux développeurs de logiciels qui créent des applications LLM avec un ou plusieurs composants RAG. Pour comprendre les concepts et les recommandations de ce guide, vous devez être familiarisé avec les bases de données vectorielles et les instructions pour LLMs.

Objectifs

Les recommandations de ce guide peuvent vous aider à atteindre les objectifs suivants :

Améliorez la précision et la pertinence des réponses générées par les applications RAG en fournissant des documents sources bien structurés et sémantiquement riches, optimisés pour l'utilisation des jetons et la redondance.
Aidez les applications RAG à mieux comprendre les connaissances et le contexte spécifiques au domaine en fournissant des définitions et des explications claires dans les documents sources.
Facilitez la maintenance et les mises à jour de la base de connaissances pour les applications RAG en respectant des directives de formatage et de structuration cohérentes dans les documents sources.
Améliorez l'évolutivité des solutions RAG en décomposant les grands documents monolithiques en unités plus petites et autonomes qui peuvent être indexées et récupérées efficacement.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Comprendre le LLM et le RAG