Ajustement de grands modèles linguistiques dans le secteur de la santé - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Ajustement de grands modèles linguistiques dans le secteur de la santé

L'approche d'optimisation décrite dans cette section soutient le respect des directives éthiques et réglementaires et promeut l'utilisation responsable des systèmes d'IA dans les soins de santé. Il est conçu pour générer des informations précises et confidentielles. L'IA générative révolutionne la prestation des soins de santé, mais les off-the-shelf modèles sont souvent insuffisants dans les environnements cliniques où la précision est essentielle et où la conformité n'est pas négociable. L'affinement des modèles de base à l'aide de données spécifiques au domaine comble cette lacune. Il vous aide à créer des systèmes d'IA qui parlent le langage de la médecine tout en respectant des normes réglementaires strictes. Cependant, pour réussir un ajustement précis, il faut relever avec soin les défis uniques du secteur de la santé : protéger les données sensibles, justifier les investissements dans l'IA par des résultats mesurables et maintenir la pertinence clinique dans des environnements médicaux en évolution rapide.

Lorsque les approches plus légères atteignent leurs limites, le peaufinage devient un investissement stratégique. On s'attend à ce que les gains de précision, de latence ou d'efficacité opérationnelle compensent les coûts de calcul et d'ingénierie importants nécessaires. Il est important de se rappeler que le rythme de progression des modèles de base est rapide, de sorte que l'avantage d'un modèle affiné peut ne durer que jusqu'à la prochaine sortie majeure du modèle.

Cette section ancre la discussion dans les deux cas d'utilisation à fort impact suivants, réalisés par des clients du AWS secteur de la santé :

  • Systèmes d'aide à la décision clinique — Améliorez la précision des diagnostics grâce à des modèles qui comprennent les antécédents complexes des patients et l'évolution des directives. Un ajustement précis peut aider les modèles à comprendre en profondeur les antécédents complexes des patients et à intégrer des directives spécialisées, ce qui peut potentiellement réduire les erreurs de prédiction des modèles. Cependant, vous devez évaluer ces gains par rapport au coût de la formation sur de grands ensembles de données sensibles et à l'infrastructure requise pour les applications cliniques à enjeux élevés. L'amélioration de la précision et de la connaissance du contexte justifiera-t-elle l'investissement, en particulier lorsque de nouveaux modèles sont publiés fréquemment ?

  • Analyse des documents médicaux — Automatisez le traitement des notes cliniques, des rapports d'imagerie et des documents d'assurance tout en respectant la loi HIPAA (Health Insurance Portability and Accountability Act). Dans ce cas, un ajustement précis peut permettre au modèle de gérer plus efficacement les formats uniques, les abréviations spécialisées et les exigences réglementaires. Les avantages se traduisent souvent par une réduction du temps de révision manuelle et une meilleure conformité. Néanmoins, il est essentiel d'évaluer si ces améliorations sont suffisamment importantes pour justifier le réglage précis des ressources. Déterminez si une ingénierie et une orchestration rapides des flux de travail peuvent répondre à vos besoins.

Ces scénarios concrets illustrent le processus de mise au point, de l'expérimentation initiale au déploiement du modèle, tout en répondant aux exigences uniques des soins de santé à chaque étape.

Estimation des coûts et du retour sur investissement

Les facteurs de coût suivants doivent être pris en compte lors de la mise au point d'un LLM :

  • Taille du modèle — Les modèles plus grands coûtent plus cher à peaufiner

  • Taille du jeu de données — Les coûts et le temps de calcul augmentent avec la taille du jeu de données pour un ajustement précis

  • Stratégie de réglage précis — Les méthodes efficaces en termes de paramètres peuvent réduire les coûts par rapport aux mises à jour complètes des paramètres

Lorsque vous calculez le retour sur investissement (ROI), considérez l'amélioration des indicateurs que vous avez choisis (tels que la précision) multipliée par le volume de demandes (fréquence d'utilisation du modèle) et la durée attendue avant que le modèle ne soit dépassé par les nouvelles versions.

Tenez également compte de la durée de vie de votre LLM de base. De nouveaux modèles de base apparaissent tous les 6 à 12 mois. S'il faut 8 mois pour peaufiner et valider votre détecteur de maladies rares, il se peut que vous n'obteniez que 4 mois de performances supérieures avant que les nouveaux modèles ne comblent l'écart.

En calculant les coûts, le retour sur investissement et la durée de vie potentielle de votre cas d'utilisation, vous pouvez prendre une décision basée sur les données. Par exemple, si le peaufinage de votre modèle d'aide à la décision clinique entraîne une réduction mesurable des erreurs de diagnostic dans des milliers de cas par an, l'investissement pourrait rapidement porter ses fruits. À l'inverse, si une ingénierie rapide permet à elle seule de rapprocher votre flux de travail d'analyse de documents de la précision cible, il peut être judicieux de ne pas peaufiner les réglages jusqu'à l'arrivée de la prochaine génération de modèles.

Le réglage fin ne l'est pas one-size-fits-all. Si vous décidez de peaufiner, la bonne approche dépend de votre cas d'utilisation, de vos données et de vos ressources.

Choisir une stratégie de réglage précis

Une fois que vous avez déterminé que le réglage précis est la bonne approche pour votre cas d'utilisation dans le secteur de la santé, l'étape suivante consiste à sélectionner la stratégie d'ajustement la plus appropriée. Plusieurs approches sont disponibles. Chacune présente des avantages et des inconvénients distincts pour les applications de santé. Le choix entre ces méthodes dépend de vos objectifs spécifiques, des données disponibles et des contraintes en matière de ressources.

Objectifs de formation

Le pré-entraînement adaptatif au domaine (DAPT) est une méthode non supervisée qui consiste à pré-entraîner le modèle sur un grand nombre de textes non étiquetés spécifiques au domaine (tels que des millions de documents médicaux). Cette approche convient parfaitement pour améliorer la capacité des modèles à comprendre les abréviations des spécialités médicales et la terminologie utilisée par les radiologues, les neurologues et les autres prestataires spécialisés. Cependant, DAPT nécessite de grandes quantités de données et ne traite pas de résultats de tâches spécifiques.

Le réglage fin supervisé (SFT) apprend au modèle à suivre des instructions explicites en utilisant des exemples d'entrées-sorties structurés. Cette approche excelle pour les flux de travail d'analyse de documents médicaux, tels que le résumé de documents ou le codage clinique. Le réglage des instructions est une forme courante de SFT dans laquelle le modèle est entraîné sur des exemples qui incluent des instructions explicites associées aux sorties souhaitées. Cela améliore la capacité du modèle à comprendre et à suivre les diverses instructions des utilisateurs. Cette technique est particulièrement utile dans les établissements de santé car elle entraîne le modèle à l'aide d'exemples cliniques spécifiques. Le principal inconvénient est qu'il nécessite des exemples soigneusement étiquetés. En outre, le modèle affiné peut avoir du mal à traiter les cas extrêmes où il n'y a pas d'exemples. Pour obtenir des instructions sur le réglage précis avec Amazon SageMaker Jumpstart, consultez la section Instructions de réglage du FLAN T5 XL avec Amazon SageMaker Jumpstart (article de blog).AWS

L'apprentissage par renforcement basé sur le feedback humain (RLHF) optimise le comportement du modèle en fonction des commentaires et des préférences des experts. Utilisez un modèle de récompense basé sur les préférences et méthodes humaines, telles que l'optimisation des politiques proximales (PPO) ou l'optimisation des préférences directes (DPO), pour optimiser le modèle tout en empêchant les mises à jour destructives. Le RLHF est idéal pour aligner les résultats sur les directives cliniques et s'assurer que les recommandations respectent les protocoles approuvés. Cette approche demande beaucoup de temps aux cliniciens pour obtenir des commentaires et implique un pipeline de formation complexe. Cependant, le RLHF est particulièrement utile dans le domaine de la santé car il aide les experts médicaux à façonner la manière dont les systèmes d'IA communiquent et font des recommandations. Par exemple, les cliniciens peuvent fournir des commentaires pour s'assurer que le modèle fonctionne correctement au chevet du patient, qu'il sait quand exprimer son incertitude et qu'il respecte les directives cliniques. Des techniques telles que le PPO optimisent de manière itérative le comportement du modèle en fonction des commentaires des experts tout en limitant les mises à jour des paramètres afin de préserver les connaissances médicales de base. Cela permet aux modèles de transmettre des diagnostics complexes dans un langage convivial pour le patient tout en signalant les affections graves nécessitant une prise en charge médicale immédiate. Cela est crucial pour les soins de santé où la précision et le style de communication sont importants. Pour plus d'informations sur le RLHF, voir Affiner les grands modèles linguistiques grâce à l'apprentissage par renforcement à partir de commentaires humains ou basés sur l'IA (article de AWS blog).

Méthodes de mise en œuvre

Une mise à jour complète des paramètres implique la mise à jour de tous les paramètres du modèle pendant l'entraînement. Cette approche fonctionne mieux pour les systèmes d'aide à la décision clinique qui nécessitent une intégration approfondie des antécédents des patients, des résultats de laboratoire et des directives évolutives. Les inconvénients incluent le coût de calcul élevé et le risque de surajustement si votre ensemble de données n'est pas volumineux et diversifié.

Les méthodes de réglage fin efficaces (PEFT) mettent à jour uniquement un sous-ensemble de paramètres afin d'éviter un surajustement ou une perte catastrophique des capacités linguistiques. Les types incluent l'adaptation de bas rang (LoRa), les adaptateurs et le réglage des préfixes. Les méthodes PEFT permettent de réduire les coûts de calcul, d'accélérer la formation et sont idéales pour les expériences telles que l'adaptation d'un modèle d'aide à la décision clinique aux protocoles ou à la terminologie d'un nouvel hôpital. La principale limite est la réduction potentielle des performances par rapport aux mises à jour complètes des paramètres.

Pour plus d'informations sur les méthodes de réglage précis, consultez Méthodes de réglage avancées sur Amazon SageMaker AI (article de AWS blog).

Création d'un ensemble de données affiné

La qualité et la diversité de l'ensemble de données de réglage fin sont essentielles pour les performances, la sécurité et la prévention des biais du modèle. Les trois domaines critiques suivants doivent être pris en compte lors de la création de cet ensemble de données :

  • Volume basé sur une approche de réglage précis

  • Annotation des données par un expert du domaine

  • Diversité de l'ensemble de données

Comme le montre le tableau suivant, les exigences relatives à la taille du jeu de données pour le réglage précis varient en fonction du type de réglage précis effectué.

Stratégie de réglage précis

Taille du jeu de données

Pré-formation adaptée au domaine

Plus de 100 000 textes de domaine

Réglage précis supervisé

Plus de 10 000 paires étiquetées

Apprentissage par renforcement à partir du feedback humain

Plus de 1 000 paires de préférences d'experts

Vous pouvez utiliser AWS GlueAmazon EMR et Amazon SageMaker Data Wrangler pour automatiser le processus d'extraction et de transformation des données afin de créer un ensemble de données dont vous êtes le propriétaire. Si vous ne parvenez pas à créer un ensemble de données suffisamment volumineux, vous pouvez découvrir et télécharger des ensembles de données directement dans votre Compte AWS canal. AWS Data Exchange Consultez votre conseiller juridique avant d'utiliser des ensembles de données tiers.

Des annotateurs experts ayant une connaissance du domaine, tels que les médecins, les biologistes et les chimistes, devraient participer au processus de curation des données afin d'intégrer les nuances des données médicales et biologiques dans les résultats du modèle. Amazon SageMaker Ground Truth fournit une interface utilisateur low-code permettant aux experts d'annoter l'ensemble de données.

Un ensemble de données représentant la population humaine est essentiel pour que les soins de santé et les sciences de la vie puissent affiner les cas d'utilisation afin d'éviter les biais et de refléter les résultats du monde réel.AWS Glue les sessions interactives ou les instances de SageMaker blocs-notes Amazon constituent un moyen puissant d'explorer de manière itérative des ensembles de données et d'affiner les transformations à l'aide de blocs-notes compatibles avec Jupyter. Les sessions interactives vous permettent de travailler avec un choix d'environnements de développement intégrés populaires (IDEs) dans votre environnement local. Vous pouvez également travailler avec AWS Glue des blocs-notes Amazon SageMaker Studio via le AWS Management Console.

Affiner le modèle

AWS fournit des services tels qu'Amazon SageMaker AI et Amazon Bedrock qui sont essentiels pour un réglage précis réussi.

SageMaker L'IA est un service d'apprentissage automatique entièrement géré qui aide les développeurs et les data scientists à créer, former et déployer rapidement des modèles de machine learning. Les trois fonctionnalités utiles de l' SageMaker IA pour le peaufinage sont les suivantes :

  • SageMakerFormation — Une fonctionnalité de machine learning entièrement gérée qui vous aide à entraîner efficacement un large éventail de modèles à grande échelle

  • SageMaker JumpStart— Une fonctionnalité qui s'appuie sur les tâches de SageMaker formation pour fournir des modèles préentraînés, des algorithmes intégrés et des modèles de solutions pour les tâches de machine learning

  • SageMaker HyperPod— Une solution d'infrastructure spécialement conçue pour la formation distribuée des modèles de base et LLMs

Amazon Bedrock est un service entièrement géré qui donne accès à des modèles de base très performants via une API, avec des fonctionnalités intégrées de sécurité, de confidentialité et d'évolutivité. Le service permet de peaufiner plusieurs modèles de base disponibles. Pour plus d'informations, consultez la section Modèles et régions pris en charge pour un réglage précis et une formation préalable continue dans la documentation Amazon Bedrock.

Lorsque vous abordez le processus de mise au point avec l'un ou l'autre service, tenez compte du modèle de base, de la stratégie de réglage et de l'infrastructure.

Choix du modèle de base

Les modèles à code source fermé, tels qu'Anthropic Claude, Meta Llama et Amazon Nova, offrent de solides out-of-the-box performances grâce à la gestion de la conformité, mais limitent la flexibilité d'ajustement aux options prises en charge par les fournisseurs, telles que celles gérées par Amazon Bedrock. APIs Cela limite la personnalisation, en particulier pour les cas d'utilisation des soins de santé réglementés. En revanche, les modèles open source, tels que Meta Llama, offrent un contrôle et une flexibilité complets sur l'ensemble des services Amazon SageMaker AI, ce qui les rend idéaux lorsque vous devez personnaliser, auditer ou adapter en profondeur un modèle à vos exigences spécifiques en matière de données ou de flux de travail.

Stratégie de peaufinage

Le réglage simple des instructions peut être géré par Amazon Bedrock Model Customization ou Amazon SageMaker JumpStart. Les approches PEFT complexes, telles que LoRa ou les adaptateurs, nécessitent des tâches de SageMaker formation ou une fonctionnalité de réglage personnalisé dans Amazon Bedrock. La formation distribuée pour les très grands modèles est prise en charge par SageMaker HyperPod.

Échelle et contrôle de l'infrastructure

Les services entièrement gérés, tels qu'Amazon Bedrock, minimisent la gestion de l'infrastructure et sont idéaux pour les entreprises qui privilégient la facilité d'utilisation et la conformité. Les options semi-gérées, par exemple SageMaker JumpStart, offrent une certaine flexibilité avec moins de complexité. Ces options conviennent au prototypage rapide ou à l'utilisation de flux de travail prédéfinis. Les tâches de SageMaker formation offrent un contrôle et une personnalisation complets HyperPod, bien que celles-ci nécessitent une plus grande expertise et soient idéales lorsque vous devez effectuer une mise à l'échelle pour des ensembles de données volumineux ou que vous avez besoin de pipelines personnalisés.

Surveillance de modèles affinés

Dans les domaines de la santé et des sciences de la vie, le suivi de l'ajustement précis du LLM nécessite le suivi de plusieurs indicateurs de performance clés. La précision fournit une mesure de référence, mais cela doit être mis en balance avec la précision et le rappel, en particulier dans les applications où les erreurs de classification ont des conséquences importantes. Le score F1 aide à résoudre les problèmes de déséquilibre des classes qui peuvent être courants dans les ensembles de données médicales. Pour plus d’informations, consultez Évaluation LLMs pour les applications des soins de santé et des sciences de la vie dans ce guide.

Les mesures d'étalonnage vous aident à vous assurer que les niveaux de confiance du modèle correspondent aux probabilités réelles. Les indicateurs d'équité peuvent vous aider à détecter les biais potentiels selon les différents groupes démographiques de patients.

MLflowest une solution open source qui peut vous aider à suivre des expériences de réglage précis. MLflow est pris en charge de manière native dans Amazon SageMaker AI, ce qui vous permet de comparer visuellement les indicateurs issus des sessions d'entraînement. Pour affiner les tâches sur Amazon Bedrock, les statistiques sont transmises à Amazon CloudWatch afin que vous puissiez les visualiser dans la console. CloudWatch