View a markdown version of this page

Cycle de vie des données dans l'IA générative - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Cycle de vie des données dans l'IA générative

La mise en œuvre de l'IA générative dans une entreprise implique un cycle de vie des données parallèle au AI/ML cycle de vie traditionnel. Cependant, il existe des considérations uniques à chaque étape. Les phases clés incluent la préparation des données, l'intégration dans les flux de travail des modèles (tels que la récupération ou le réglage précis), la collecte de commentaires et les mises à jour continues. Cette section explore ces étapes interconnectées du cycle de vie des données et détaille les processus essentiels, les défis et les meilleures pratiques que les entreprises doivent prendre en compte lors du développement et du déploiement de solutions d'IA générative.

Préparation et nettoyage des données pour la pré-formation

Les déchets entrants et sortants sont le concept selon lequel des intrants de mauvaise qualité se traduisent par des produits de qualité tout aussi médiocre. Comme dans tout projet d'IA, la qualité des données est un make-or-break facteur déterminant. L'IA générative commence souvent par des ensembles de données massifs, mais le volume à lui seul ne suffit pas. Un nettoyage, un filtrage et un prétraitement soigneux sont essentiels.

À ce stade, les équipes chargées des données agrègent les données brutes, telles que de grands textes ou des collections d'images. Ensuite, ils suppriment le bruit, les erreurs et les biais. Par exemple, la préparation du texte pour un LLM peut impliquer l'élimination des doublons, la purge des informations personnelles sensibles et le filtrage du contenu toxique ou non pertinent. L'objectif est de créer un ensemble de données de haute qualité qui représente réellement les connaissances ou le style que le modèle doit capturer. Les données peuvent également être normalisées ou formatées dans une structure adaptée à l'ingestion de modèles. Par exemple, vous pouvez tokeniser du texte, supprimer des balises HTML ou normaliser la résolution de l'image.

En IA générative, cette préparation peut être particulièrement intensive en raison de son échelle. Des modèles tels qu'Anthropic Claude sont entraînés sur des centaines de milliards de jetons (Wikipédia) provenant d'un large éventail de sources de données accessibles au public et sous licence. Même de faibles pourcentages de mauvaises données peuvent avoir des effets démesurés sur les résultats, notamment du contenu offensant ou des erreurs factuelles. Par exemple, divers fournisseurs de LLM ont indiqué avoir exclu le contenu d'une communauté Reddit de leur ensemble de données de formation parce que les publications consistaient principalement en de longues séquences de la lettre M afin d'imiter le bruit d'un micro-ondes. Ces publications perturbaient la formation et les performances des modèles.

À ce stade, certaines entreprises adoptent l'augmentation des données pour améliorer la couverture de certains scénarios. L'augmentation des données est le processus de synthèse de données d'entraînement supplémentaires. Pour plus d'informations, voir Synthèse des données dans ce guide.

Lorsque vous entraînez le modèle sur les données préparées et prétraitées, vous pouvez utiliser des techniques d'atténuation pour notamment corriger les biais. Les techniques incluent l'intégration de principes éthiques dans l'architecture du modèle, connue sous le nom d'IA constitutionnelle. Une autre technique est le débiais accusatoire, qui remet en question le modèle pendant la formation afin d'obtenir des résultats plus équitables pour les différents groupes. Enfin, après l'entraînement, vous pouvez effectuer des ajustements de post-traitement pour affiner le modèle en le peaufinant. Cela peut aider à corriger les préjugés qui subsistent et à améliorer l'équité globale.

Génération à enrichissement contextuel (RAG)

Les modèles de machine learning statiques font des prédictions uniquement à partir d'un ensemble d'entraînement fixe. Cependant, de nombreuses solutions d'IA générative d'entreprise utilisent la génération augmentée de récupération (RAG) pour maintenir les connaissances d'un modèle à jour et pertinentes. Le RAG implique de connecter un LLM à un référentiel de connaissances externe qui peut contenir des documents d'entreprise, des bases de données ou d'autres sources de données.

En pratique, RAG nécessite la mise en œuvre d'un pipeline de données supplémentaire. Cela introduit une certaine complexité et implique les étapes séquentielles suivantes :

  1. Ingestion et filtrage — Collectez des données pertinentes et de haute qualité provenant de diverses sources. Mettez en œuvre des mécanismes de filtrage pour exclure les informations redondantes ou non pertinentes, et assurez-vous que l'ensemble de données correspond au domaine de l'application. Notez que les mises à jour et la maintenance régulières du référentiel de données sont essentielles pour préserver l'exactitude et la pertinence des informations.

  2. Analyse et extraction — Après l'ingestion des données, celles-ci doivent être analysées pour en extraire un contenu significatif. Utilisez des analyseurs capables de gérer différents formats de données, tels que le HTML, le JSON ou le texte brut. Les analyseurs convertissent les données brutes en formulaires structurés. Ce processus facilite la manipulation et l'analyse des données lors des étapes suivantes.

  3. Stratégies de segmentation : divisez les données en parties gérables, ou segments. Cette étape est essentielle pour une récupération et un traitement efficaces. Les stratégies de segmentation incluent, sans toutefois s'y limiter, les suivantes :

    • Découpage standard basé sur des jetons : divisez le texte en segments de taille fixe en fonction d'un nombre spécifique de jetons. Il s'agit de la stratégie de découpage la plus élémentaire, mais elle permet de maintenir des longueurs de morceaux uniformes.

    • Fragmentation hiérarchique : organisez le contenu selon une hiérarchie (par exemple, des chapitres, des sections ou des paragraphes) afin de préserver les relations contextuelles. Cette stratégie permet au modèle de mieux comprendre la structure des données.

    • Segmentation sémantique — Segmentez le texte en fonction de la cohérence sémantique. Assurez-vous que chaque élément représente une idée ou un sujet complet. Cette stratégie peut améliorer la pertinence des informations récupérées.

  4. Sélection du modèle d'intégration — Les bases de données vectorielles stockent les intégrations, qui sont des représentations numériques d'un fragment de texte qui préservent sa signification et son contexte. Une intégration est un format qu'un modèle de ML peut comprendre et comparer pour effectuer une recherche sémantique. Le choix du modèle d'intégration approprié est essentiel pour saisir l'essence sémantique des segments de données. Sélectionnez des modèles qui répondent aux besoins spécifiques de votre domaine et qui peuvent générer des intégrations reflétant avec précision le sens du contenu. Le choix du modèle d'intégration le mieux adapté à votre cas d'utilisation peut améliorer la pertinence et la précision contextuelle.

  5. Algorithmes d'indexation et de recherche : indexez les éléments incorporés dans une base de données vectorielle optimisée pour les recherches de similarité. Utilisez des algorithmes de recherche qui gèrent efficacement les données de grande dimension et permettent de récupérer rapidement les informations pertinentes. Des techniques telles que la recherche du voisin le plus proche approximatif (ANN) peuvent améliorer considérablement la vitesse de récupération sans compromettre la précision.

Les pipelines RAG sont intrinsèquement complexes. Ils nécessitent plusieurs étapes, différents niveaux d'intégration et un haut degré d'expertise pour concevoir efficacement. Lorsqu'ils sont correctement mis en œuvre, ils peuvent améliorer de manière significative les performances et la précision d'une solution d'IA générative. Cependant, la maintenance de ces systèmes est gourmande en ressources et nécessite une surveillance, une optimisation et une mise à l'échelle continues. Cette complexité a conduit à l'émergence d'RAGOpsune approche dédiée à l'opérationnalisation et à la gestion efficaces des pipelines RAG, afin de promouvoir la fiabilité et l'efficacité à long terme.

Pour plus d'informations sur RAG on AWS, consultez les ressources suivantes :

Réglage précis et formation spécialisée

Le réglage précis peut prendre deux formes distinctes : le réglage du domaine et le réglage précis des tâches. Chacun a un objectif différent lorsqu'il s'agit d'adapter un modèle préentraîné. L'affinement d'un domaine non supervisé implique de poursuivre l'entraînement du modèle sur un corps de texte spécifique au domaine afin de l'aider à mieux comprendre le langage, la terminologie et le contexte propres à un domaine ou à un secteur en particulier. Par exemple, vous pouvez peaufiner un LLM spécifique au média sur une collection d'articles et de jargon internes afin de refléter le ton de voix et le vocabulaire spécialisé de l'entreprise.

En revanche, le réglage précis des tâches supervisées vise à apprendre au modèle à exécuter une fonction ou un format de sortie spécifique. Par exemple, vous pouvez lui apprendre à répondre aux questions des clients, à résumer des documents juridiques ou à extraire des données structurées. Cela nécessite généralement de préparer un ensemble de données étiqueté contenant des exemples d'entrées et de sorties souhaitées pour la tâche cible.

Les deux approches nécessitent une collecte et une conservation minutieuses des données de réglage. Pour affiner les tâches, les ensembles de données sont explicitement étiquetés. Pour affiner le domaine, vous pouvez utiliser du texte non étiqueté afin d'améliorer la compréhension générale de la langue dans le contexte pertinent. Quelle que soit l'approche, la qualité des données est primordiale. Des ensembles de données propres, représentatifs et de taille appropriée sont essentiels pour maintenir et améliorer les performances du modèle. En général, les ensembles de données de réglage précis sont beaucoup plus petits que ceux utilisés pour la pré-formation initiale, mais ils doivent être soigneusement sélectionnés pour garantir une adaptation efficace du modèle.

Une alternative au réglage fin est la distillation des modèles, une technique qui consiste à entraîner un modèle spécialisé plus petit pour reproduire les performances d'un modèle plus grand et plus général. Au lieu de peaufiner un LLM existant, la distillation par modèle transfère les connaissances en formant un modèle léger (l'étudiant) sur les résultats générés par le modèle original, plus complexe (l'enseignant). Cette approche est particulièrement avantageuse lorsque l'efficacité informatique est une priorité, car les modèles distillés nécessitent moins de ressources tout en conservant les performances spécifiques aux tâches.

Plutôt que de nécessiter de nombreuses données de formation spécifiques à un domaine, la distillation des modèles repose sur des ensembles de données synthétiques ou générés par les enseignants. Le modèle complexe produit des exemples de haute qualité dont le modèle léger peut s'inspirer. Cela permet de réduire le fardeau lié à la conservation de données propriétaires, mais nécessite tout de même une sélection rigoureuse d'exemples de formation variés et impartiaux afin de maintenir les capacités de généralisation. En outre, la distillation peut contribuer à atténuer les risques liés à la confidentialité des données, car vous pouvez entraîner le modèle léger sur des données protégées sans exposer directement les enregistrements sensibles.

Cela dit, il est peu probable que la plupart des entreprises procèdent à des ajustements ou à une distillation, car cela n'est souvent pas nécessaire pour leurs cas d'utilisation et introduit une couche supplémentaire de complexité opérationnelle et technique. De nombreux besoins commerciaux peuvent être satisfaits efficacement à l'aide de modèles de base préformés, parfois légèrement personnalisés grâce à une ingénierie rapide ou à des outils tels que RAG. Le réglage précis nécessite des investissements considérables en termes de capacités techniques, de conservation des données et de gouvernance des modèles. Cela le rend plus adapté aux applications d'entreprise hautement spécialisées ou à grande échelle où un tel effort est justifié.

Ensemble de données d'évaluation

L'élaboration d'une stratégie de données robuste est essentielle lors de la construction d'ensembles de données d'évaluation pour les solutions d'IA générative. Ces ensembles de données d'évaluation servent de points de référence pour évaluer les performances des modèles. Ils doivent être ancrés dans des données fiables sur le terrain, c'est-à-dire des données connues pour être exactes, vérifiées et représentatives des résultats du monde réel. Par exemple, les données de base peuvent être des données réelles que vous ne divulguez pas dans le cadre d'un entraînement ou d'un ensemble de données de réglage précis. Les données fiables sur le terrain peuvent provenir de plusieurs sources, chacune présentant ses propres défis.

La génération de données synthétiques constitue un moyen évolutif de créer des ensembles de données contrôlés pour tester les capacités de modèles spécifiques sans exposer d'informations sensibles. Cependant, son efficacité dépend de la fidélité avec laquelle il reproduit les véritables distributions de vérité de terrain.

Par ailleurs, les ensembles de données sélectionnés manuellement, souvent appelés ensembles de données dorés, contiennent des paires questions-réponses rigoureusement vérifiées ou des exemples étiquetés. Ces ensembles de données peuvent servir de données de vérité de base de haute qualité pour une évaluation robuste des modèles. Cependant, la compilation de ces ensembles de données demande beaucoup de temps et de ressources. L'intégration des interactions réelles avec les clients sous forme de données d'évaluation peut améliorer la pertinence et la couverture des données de base, même si cela nécessite des garanties de confidentialité strictes et une conformité réglementaire (comme avec le RGPD et le CCPA).

Une stratégie globale en matière de données doit équilibrer ces approches. Pour évaluer efficacement les modèles d'IA générative, prenez en compte des facteurs tels que la qualité des données, la représentativité, les considérations éthiques et l'alignement sur les objectifs commerciaux. Pour plus d'informations, consultez Amazon Bedrock Evaluations.

Données générées par l'utilisateur et boucles de feedback

Une fois qu'un système d'IA générative est déployé, il commence à produire des résultats et à interagir avec les utilisateurs. Ces interactions deviennent elles-mêmes une source de données précieuse. Les données générées par les utilisateurs incluent les questions et les instructions des utilisateurs, les réponses du modèle et tous les commentaires explicites fournis par les utilisateurs (tels que les évaluations). Les entreprises devraient considérer cela comme faisant partie du cycle de vie des données générées par l'IA et les intégrer dans les processus de surveillance et d'amélioration. Il est important de noter que les données générées par les utilisateurs peuvent être intégrées à votre ensemble de données Ground Truth. Cela permet d'optimiser davantage les invites et d'améliorer les performances globales de votre application au fil du temps. Une autre raison essentielle est de gérer la dérive et les performances du modèle au fil du temps. Après une utilisation dans le monde réel, le modèle peut commencer à s'éloigner de son domaine d'apprentissage. Par exemple, un nouvel argot apparaît dans les requêtes ou les utilisateurs posent des questions sur des sujets émergents qui ne figurent pas dans les données de formation. La surveillance de ces données en temps réel peut révéler une dérive des données, c'est-à-dire un décalage de la distribution des entrées, susceptible de dégrader la précision du modèle.

Pour y remédier, les entreprises établissent des boucles de feedback en capturant les interactions des utilisateurs et en réentraînant ou en peaufinant périodiquement le modèle sur un échantillon récent d'entre elles. Parfois, vous pouvez simplement utiliser les commentaires pour ajuster les instructions et récupérer les données. Par exemple, si un assistant chatbot interne hallucine constamment des réponses à propos d'un nouveau produit, l'équipe peut collecter les paires de questions-réponses qui ont échoué et inclure les informations correctes sous forme de données de formation ou de récupération supplémentaires.

Dans certains cas, l'apprentissage par renforcement basé sur le feedback humain (RLHF) est utilisé pour mieux aligner un LLM pendant la phase post-formation ou de peaufinage. Cela aide le modèle à produire des réponses qui reflètent mieux les préférences et les valeurs humaines. Les techniques d'apprentissage par renforcement (RL) entraînent les logiciels à prendre des décisions qui maximisent les récompenses, en rendant leurs résultats plus précis. Le RLHF intègre le feedback humain dans la fonction de récompense, de sorte que le modèle ML peut effectuer des tâches mieux alignées sur les objectifs, les désirs et les besoins humains. Pour plus d'informations sur l'utilisation de la RLHF dans Amazon SageMaker AI, consultez Improving your LLMs with RLHF SageMaker on Amazon sur le blog AWS AI.

Même sans le RLHF officiel, une approche plus simple consiste à examiner manuellement une fraction des résultats du modèle sur une base continue, ce qui s'apparente à une assurance qualité. L'essentiel est que le suivi continu, l'observabilité et l'apprentissage soient intégrés au processus. Pour plus d'informations sur la manière de recueillir et de stocker les commentaires humains issus d'applications d'IA générative sur AWS, consultez les instructions relatives aux commentaires et analyses des utilisateurs de Chatbots AWS dans la bibliothèque de AWS solutions.

Pour prévenir ou corriger la dérive, les entreprises doivent prévoir des mises à jour continues des modèles, qui peuvent prendre plusieurs formes. L'une des approches consiste à planifier des ajustements réguliers ou une formation préalable continue. Par exemple, vous pouvez mettre à jour le modèle tous les mois avec les dernières données internes, les demandes d'assistance ou les derniers articles de presse. Au cours de la pré-formation continue, un modèle linguistique préformé est ensuite entraîné sur des données supplémentaires afin d'améliorer ses performances, en particulier dans des domaines ou des tâches spécifiques. Ce processus consiste à exposer le modèle à de nouvelles données textuelles non étiquetées, ce qui lui permet d'affiner sa compréhension et de s'adapter aux nouvelles informations sans repartir de zéro. Pour vous aider dans ce processus potentiellement complexe, Amazon Bedrock vous permet de procéder à des réglages précis et à une formation préalable continue dans un environnement entièrement sécurisé et géré. Pour plus d'informations, consultez Personnaliser les modèles dans Amazon Bedrock à l'aide de vos propres données grâce à des réglages précis et à une formation préalable continue sur le AWS blog d'actualités.

Dans le scénario où vous utilisez des off-the-shelf modèles avec RAG, vous pouvez compter sur des services d'intelligence artificielle dans le cloud, tels qu'Amazon Bedrock. Ces services proposent des mises à niveau régulières des modèles au fur et à mesure de leur sortie et les ajoutent au catalogue disponible. Cela vous permet de mettre à jour vos solutions afin d'utiliser les dernières versions de ces modèles de base.