Génération augmentée de mise à la terre et de récupération - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Génération augmentée de mise à la terre et de récupération

La confiance, la précision et l'explicabilité sont essentielles au déploiement de systèmes d'IA dans les environnements de production d'entreprise. Les modèles Foundation (FMs) offrent des fonctionnalités générales impressionnantes. Cependant, ils sont formés sur des corpus publics à grande échelle et ne sont souvent pas au courant des données propriétaires, des règles commerciales ou des modifications récentes.

Pour combler ces lacunes de sensibilisation, AWS active la génération augmentée de récupération (RAG) via les bases de connaissances Amazon Bedrock. Le RAG est un puissant modèle architectural qui fonde les réponses FM sur des connaissances externes spécifiques au domaine, offrant à la fois une précision factuelle et une pertinence contextuelle.

RAG améliore la sortie des grands modèles de langage (LLM) en combinant deux processus :

  • Récupération : utilisez un mécanisme de recherche sémantique (généralement basé sur des intégrations vectorielles) pour identifier le contenu pertinent à partir d'une source de connaissances organisée (par exemple, des documents internes, des manuels de produits et des journaux de cas).

  • Générer — Fournissez le contexte récupéré dans le cadre de l'invite au LLM, lui permettant de rédiger une réponse fondée sur ces informations faisant autorité.

Cette approche permet aux modèles de base « à livre fermé » d'agir comme s'ils avaient accès à vos données d'entreprise en temps réel et organisées, sans avoir à suivre une formation complémentaire.

Par exemple, un employé demande à un assistant IA interne « Quelle est notre politique en matière de voyages ? » La réponse de l'assistant est créée à partir de la documentation des ressources humaines (RH) hébergée dans Amazon Simple Storage Service (Amazon S3), sans qu'il soit nécessaire de peaufiner un modèle.

Enracinement dans Amazon Bedrock

Amazon Bedrock prend en charge les bases de connaissances grâce à sa fonctionnalité de bases de connaissances, qui permet aux développeurs de configurer et de lier des référentiels de contenu d'entreprise à des modèles de base sans gérer l'infrastructure.

Les principales fonctionnalités de la mise à la terre dans Amazon Bedrock sont les suivantes :

  • Intégration automatisée de documents à l'aide des fournisseurs FM pris en charge

  • Recherche sémantique dans des documents HTML PDFs, Word ou des fichiers texte stockés dans Amazon S3

  • Mise à la base sans ajustement précis car le contenu est injecté dans la fenêtre contextuelle du LLM

  • Fonctionne avec Amazon Bedrock Agents pour effectuer un raisonnement complexe ou utiliser des outils en plusieurs étapes

Les sources de base prises en charge dans les bases de connaissances Amazon Bedrock sont les suivantes :

  • Amazon S3 (support natif) et, Confluence SalesforceSharePoint, ou Web Crawler (en version préliminaire)

  • Des index préintégrés à l'aide de magasins vectoriels tels qu'Amazon Aurora, Amazon OpenSearch ServerlessMongoDB, Pinecone Amazon Neptune Analytics et Enterprise Cloud. Redis

Le modèle de support de mise à la terre dans Amazon Bedrock inclut les éléments suivants :

  • Tous ceux LLMs qui sont compatibles avec Amazon Bedrock soutiennent la mise à la terre.

  • Les modèles Amazon Nova sont optimisés pour s'appuyer sur du texte, des images et des vidéos à l'aide de techniques de récupération hybrides.

  • Les résultats basés sur le terrain peuvent être davantage orchestrés par les agents Amazon Bedrock à des fins de raisonnement et de prise de décision.

Intégration avec l'IA agentic

RAG fonctionne particulièrement bien avec les agents Amazon Bedrock en leur permettant d'agir grâce à des informations contextuelles et à une connaissance des politiques. Voici un exemple de flux de travail agentic :

  1. Les entrées de l'utilisateur sont envoyées à Amazon EventBridge, qui les envoie à un agent Amazon Bedrock.

  2. L'agent invoque une base de connaissances pour rechercher des documents internes.

  3. Le contexte récupéré est intégré à l'invite LLM.

  4. Le LLM génère des résultats fondés sur des références et une traçabilité.

  5. (Facultatif) L'agent stocke les résultats et les preuves à l'appui en mémoire pour les actions futures.

Ce flux de travail permet à l'agent de raisonner sur la base d'un contexte fondé et de prendre des décisions explicables, comblant ainsi le fossé entre les informations générales et les applications spécifiques à un domaine.

Ajout de garde-corps pour des raisons de sécurité et de conformité

La mise à la terre améliore la précision, mais l'IA destinée à la production exige des contrôles explicites sur ce que le modèle peut ou ne peut pas dire ou faire. La fonctionnalité Amazon Bedrock Guardrails limite le comportement des agents et fait appliquer la politique de l'entreprise.

Les capacités des rambardes sont les suivantes :

  • Filtres de contenu : empêchez les sorties qui enfreignent les normes de sécurité ou de conformité, notamment en masquant les informations personnelles identifiables.

  • Sujets de refus — Bloquez des catégories spécifiques de réponses (par exemple, aucun avis médical).

  • Inspection rapide — Identifiez et supprimez les entrées sensibles avant l'inférence.

  • Contrôle d'accès au niveau de l'utilisateur — Personnalisez les réponses en fonction de l'identité et des rôles en utilisant Gestion des identités et des accès AWS (IAM).

  • Contraintes liées au contexte de session : empêchez la dérive du modèle en affectant l'agent à une tâche spécifique.

Grâce aux garde-fous, les organisations peuvent déléguer en toute sécurité le raisonnement et la prise de décision aux agents tout en gardant le contrôle du ton, du comportement et des limites.

Raisonnement automatisé en complément du RAG

Le contenu ancré ne suffit pas. Les agents doivent raisonner sur ce contenu. C'est là que le raisonnement automatisé basé sur le LLM devient essentiel. Le raisonnement automatisé vise à permettre aux agents de raisonner de manière logique, par exemple en tirant des conclusions, en prenant des décisions ou en résolvant des problèmes, sans intervention humaine directe.

Le raisonnement automatisé permet ce qui suit :

  • Synthèse : comparez, contrastez ou résumez plusieurs documents récupérés.

  • Logique à sauts multiples : connectez les faits entre les documents ou les sections pour tirer des conclusions.

  • Prise de décision — Choisissez entre des données contradictoires en fonction de règles ou de préférences.

  • Réponses fondées sur des preuves — Citations des résultats et justification de chaque décision.

Ces fonctionnalités transforment une réponse fondée en une réponse motivée, et un agent Amazon Bedrock d'un outil de récupération en un conseiller spécialisé dans le domaine.

Grâce à des outils tels que le chaînage rapide, les boucles d'évaluation par réflexion et l'orchestration multi-agents, les systèmes d'intelligence artificielle agentic peuvent simuler des modèles de raisonnement experts, tels que le diagnostic, le triage, la planification ou l'analyse des risques.

Modèles Amazon Nova et génération basée sur le sol

Avec Amazon Nova Pro et Amazon Nova Premier, les flux de travail RAG ancrés s'étendent aux entrées multimodales, permettant aux agents d'interpréter et de raisonner à partir des sources suivantes :

  • Documents annotés et fichiers PDF

  • Diagrammes, graphiques et images intégrées

  • Captures d'écran, formulaires et visualisations de données structurées

  • Transcriptions vidéo et diaporamas

Grâce à cette fonctionnalité, Amazon Nova convient parfaitement aux secteurs nécessitant une connaissance approfondie du contenu multimédia, tel que les dossiers juridiques, les évaluations d'assurance, les dossiers cliniques ou les dossiers réglementaires.

Sécurité et gouvernance dans RAG

L'ancrage des modèles d'entreprise introduit de nouvelles responsabilités, par exemple par le biais de RAG, de bases de connaissances ou de peaufinage. Vous injectez vos propres données et votre propre contexte dans un modèle de base. Cela introduit de nouvelles responsabilités qui vont au-delà de la simple sélection des modèles et de leur fabrication rapide. AWS recommande les contrôles suivants, qui fonctionnent conjointement avec des barrières de sécurité pour garantir un déploiement en entreprise en toute confiance :

  • Assurance de la qualité des données sources - Les réponses fondées ne sont fiables que dans la mesure où les documents, les bases de données ou APIs les documents sur lesquels elles sont basées.

  • Classification et traçabilité des données — Classez et balisez les sources de contenu, afin de montrer d'où provient une réponse fondée.

  • Contrôle d'accès — L'injection de documents privés dans des instructions augmente les risques en matière de sécurité et de confidentialité. Limitez l'accès à des documents ou à des intégrations spécifiques via IAM.

  • Gestion des mises à jour et des dérives — Les connaissances ancrées doivent évoluer au même rythme que votre entreprise. Des politiques de gestion des versions, de fraîcheur et de réindexation automatique doivent être mises en place pour empêcher toute dérive ou toute information périmée dans les sorties du modèle.

  • Gouvernance de l'intelligence intégrée — Vous déployez désormais des connaissances organisationnelles à l'aide de l'IA. Cette capacité s'accompagne du devoir de valider, de surveiller et de régir la façon dont elle est exprimée, en particulier dans les domaines réglementés tels que les soins de santé et les finances.

  • Observabilité rapide — Les systèmes ancrés doivent respecter les droits de propriété intellectuelle, les exigences réglementaires et les clauses de non-responsabilité des entreprises. Capturez l'intégralité des chaînes d'invite, de contexte et de réponse à des fins de conformité.

  • Journalisation des audits — Suivez l'extraction et l'inférence grâce à des journaux AWS CloudTrail CloudWatch structurés.

  • Feedback des utilisateurs et boucles de correction — Les entreprises sont chargées de permettre aux utilisateurs de signaler les mauvaises bases, les réponses incorrectes ou les sources non pertinentes, et d'acheminer ces commentaires pour améliorer leur pertinence future.

  • Contrôle de la mémoire : choisissez si vous souhaitez conserver les informations déduites au fil des sessions.

  • Optimisation du budget des jetons : lorsque la mise à la base ajoute de gros morceaux de texte, cela augmente l'utilisation (et le coût) des jetons. Vous devez trouver un équilibre entre la précision du RAG et l'économie rapide, souvent par le biais du découpage, de la synthèse ou du filtrage des métadonnées.

Résumé de l'échouement et du RAG

RAG est une stratégie fondamentale pour une IA d'entreprise sûre et évolutive. En fondant les modèles de base sur des connaissances internes faisant autorité, RAG transforme les grands modèles linguistiques de générateurs à usage général en assistants d'IA sensibles au domaine, alignés sur les politiques et explicables. Cette approche réduit les hallucinations, renforce le respect des politiques internes et permet des réponses contextuelles basées sur des faits, rendant ainsi l'IA générative adaptée aux applications destinées aux clients comme aux applications destinées aux employés.

Combinés à un raisonnement automatisé et à des garde-fous, les modèles ancrés deviennent non seulement des outils, mais des agents responsables et fiables. Grâce au support RAG sans serveur d'Amazon Bedrock et aux fonctionnalités multimodales d'Amazon Nova, les entreprises peuvent étendre l'IA sécurisée et performante à l'ensemble de leurs activités sans avoir à gérer d'infrastructure.