Feinabstimmung großer Sprachmodelle im Gesundheitswesen - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Feinabstimmung großer Sprachmodelle im Gesundheitswesen

Der in diesem Abschnitt beschriebene Ansatz zur Feinabstimmung unterstützt die Einhaltung ethischer und regulatorischer Richtlinien und fördert den verantwortungsvollen Einsatz von KI-Systemen im Gesundheitswesen. Es wurde entwickelt, um genaue und vertrauliche Erkenntnisse zu generieren. Generative KI revolutioniert die Gesundheitsversorgung, aber off-the-shelf Modelle sind in klinischen Umgebungen, in denen Genauigkeit entscheidend ist und Compliance nicht verhandelbar ist, oft unzureichend. Die Feinabstimmung von Basismodellen mit domänenspezifischen Daten schließt diese Lücke. Es hilft Ihnen dabei, KI-Systeme zu entwickeln, die die Sprache der Medizin sprechen und gleichzeitig strenge regulatorische Standards einhalten. Der Weg zu einer erfolgreichen Feinabstimmung erfordert jedoch eine sorgfältige Bewältigung der einzigartigen Herausforderungen des Gesundheitswesens: Schutz sensibler Daten, Rechtfertigung von KI-Investitionen mit messbaren Ergebnissen und Wahrung der klinischen Relevanz in einem sich schnell entwickelnden medizinischen Umfeld.

Wenn leichtere Ansätze an ihre Grenzen stoßen, wird die Feinabstimmung zu einer strategischen Investition. Es wird davon ausgegangen, dass die Gewinne an Genauigkeit, Latenz oder betrieblicher Effizienz die erheblichen Rechen- und Engineering-Kosten ausgleichen werden. Es ist wichtig, sich daran zu erinnern, dass der Fortschritt bei Basismodellen schnell voranschreitet, sodass der Vorteil eines fein abgestimmten Modells möglicherweise nur bis zur nächsten großen Modellversion anhält.

In diesem Abschnitt wird die Diskussion anhand der folgenden zwei wichtigen Anwendungsfälle von Kunden aus dem AWS Gesundheitswesen behandelt:

  • Systeme zur Unterstützung klinischer Entscheidungen — Verbessern Sie die diagnostische Genauigkeit durch Modelle, die komplexe Patientengeschichten verstehen und sich weiterentwickelnde Richtlinien entwickeln. Durch eine Feinabstimmung können Modelle dazu beitragen, komplexe Patientengeschichten besser zu verstehen und spezielle Richtlinien zu integrieren. Dadurch können Fehler bei der Modellvorhersage potenziell reduziert werden. Sie müssen diese Vorteile jedoch gegen die Kosten für Schulungen zu großen, sensiblen Datensätzen und der Infrastruktur abwägen, die für anspruchsvolle klinische Anwendungen erforderlich ist. Rechtfertigen die verbesserte Genauigkeit und die verbesserte Kontextsensitivität die Investition, insbesondere wenn häufig neue Modelle auf den Markt kommen?

  • Analyse medizinischer Dokumente — Automatisieren Sie die Verarbeitung von klinischen Notizen, bildgebenden Berichten und Versicherungsdokumenten und wahren Sie gleichzeitig die Einhaltung des Health Insurance Portability and Accountability Act (HIPAA). Hier kann das Modell durch eine Feinabstimmung möglicherweise in der Lage sein, einzigartige Formate, spezielle Abkürzungen und regulatorische Anforderungen effektiver zu handhaben. Der Vorteil liegt häufig in einer Verkürzung der Zeit für manuelle Prüfungen und einer verbesserten Einhaltung von Vorschriften. Dennoch ist es wichtig zu beurteilen, ob diese Verbesserungen erheblich genug sind, um die Ressourcen für die Feinabstimmung zu rechtfertigen. Finden Sie heraus, ob zeitnahes Engineering und Workflow-Orchestrierung Ihren Anforderungen gerecht werden können.

Diese realen Szenarien veranschaulichen den Prozess der Feinabstimmung, von den ersten Experimenten bis zur Implementierung des Modells, und berücksichtigen gleichzeitig die individuellen Anforderungen des Gesundheitswesens in jeder Phase.

Schätzung der Kosten und der Kapitalrendite

Die folgenden Kostenfaktoren müssen Sie bei der Feinabstimmung eines LLM berücksichtigen:

  • Modellgröße — Bei größeren Modellen ist die Feinabstimmung teurer

  • Datensatzgröße — Die Rechenkosten und der Zeitaufwand steigen mit der Größe des Datensatzes für die Feinabstimmung

  • Strategie zur Feinabstimmung — Parametereffiziente Methoden können die Kosten im Vergleich zu vollständigen Parameteraktualisierungen reduzieren

Berücksichtigen Sie bei der Berechnung der Investitionsrendite (ROI) die Verbesserung der von Ihnen ausgewählten Kennzahlen (z. B. Genauigkeit), multipliziert mit dem Volumen der Anfragen (wie oft das Modell verwendet wird) und der erwarteten Dauer, bis das Modell von neueren Versionen übertroffen wird.

Berücksichtigen Sie auch die Lebensdauer Ihres Basis-LLMs. Alle 6—12 Monate kommen neue Basismodelle auf den Markt. Wenn die Feinabstimmung und Validierung Ihres Detektors für seltene Krankheiten 8 Monate in Anspruch nimmt, erhalten Sie möglicherweise nur 4 Monate überragende Leistung, bevor neuere Modelle die Lücke schließen.

Durch die Berechnung der Kosten, des ROI und der potenziellen Lebensdauer für Ihren Anwendungsfall können Sie eine datengestützte Entscheidung treffen. Wenn beispielsweise die Feinabstimmung Ihres Modells zur Unterstützung klinischer Entscheidungen zu einer messbaren Reduzierung von Diagnosefehlern bei Tausenden von Fällen pro Jahr führt, kann sich die Investition schnell auszahlen. Umgekehrt kann es ratsam sein, mit der Feinabstimmung zu warten, bis die nächste Generation von Modellen verfügbar ist, wenn Ihr Dokumentenanalyse-Workflow allein schon durch die schnelle Entwicklung Ihrer Zielgenauigkeit erreicht wird.

Feinabstimmung ist es nicht. one-size-fits-all Wenn Sie sich für eine Feinabstimmung entscheiden, hängt der richtige Ansatz von Ihrem Anwendungsfall, Ihren Daten und Ressourcen ab.

Wahl einer Strategie zur Feinabstimmung

Nachdem Sie festgestellt haben, dass die Feinabstimmung der richtige Ansatz für Ihren Anwendungsfall im Gesundheitswesen ist, besteht der nächste Schritt darin, die am besten geeignete Feinabstimmungsstrategie auszuwählen. Es stehen mehrere Ansätze zur Verfügung. Jeder hat unterschiedliche Vorteile und Kompromisse für Anwendungen im Gesundheitswesen. Die Wahl zwischen diesen Methoden hängt von Ihren spezifischen Zielen, den verfügbaren Daten und Ihren Ressourcenbeschränkungen ab.

Ziele der Schulung

Beim domänenadaptiven Vortraining (DAPT) handelt es sich um eine unbeaufsichtigte Methode, bei der das Modell anhand einer großen Menge domänenspezifischen, unbeschrifteten Textes (z. B. Millionen von medizinischen Dokumenten) vorab trainiert wird. Dieser Ansatz eignet sich hervorragend zur Verbesserung der Fähigkeit der Modelle, Abkürzungen für medizinische Fachgebiete und die von Radiologen, Neurologen und anderen spezialisierten Anbietern verwendete Terminologie zu verstehen. DAPT erfordert jedoch riesige Datenmengen und ist nicht auf bestimmte Aufgaben zugeschnitten.

Supervised Fine-Tuning (SFT) bringt dem Modell anhand strukturierter Input-Output-Beispiele bei, explizite Anweisungen zu befolgen. Dieser Ansatz eignet sich hervorragend für Workflows zur Analyse medizinischer Dokumente, z. B. für die Zusammenfassung von Dokumenten oder die klinische Kodierung. Die Befehlsoptimierung ist eine gängige Form von SFT, bei der das Modell anhand von Beispielen trainiert wird, die explizite Anweisungen mit den gewünschten Ergebnissen kombinieren. Dies verbessert die Fähigkeit des Modells, verschiedene Benutzeranweisungen zu verstehen und zu befolgen. Diese Technik ist im Gesundheitswesen besonders wertvoll, da sie das Modell anhand spezifischer klinischer Beispiele trainiert. Der Hauptnachteil besteht darin, dass dafür sorgfältig beschriftete Beispiele erforderlich sind. Darüber hinaus könnte das fein abgestimmte Modell Probleme mit Grenzfällen haben, für die es keine Beispiele gibt. Eine Anleitung zur Feinabstimmung mit Amazon SageMaker Jumpstart finden Sie unter Anleitung zur Feinabstimmung für FLAN T5 XL mit Amazon SageMaker Jumpstart (Blogbeitrag).AWS

Reinforcement Learning from Human Feedback (RLHF) optimiert das Modellverhalten auf der Grundlage von Expertenfeedback und Präferenzen. Verwenden Sie ein Belohnungsmodell, das auf menschlichen Präferenzen und Methoden wie Proximal Policy Optimization (PPO) oder Direct Preference Optimization (DPO) trainiert wurde, um das Modell zu optimieren und gleichzeitig zerstörerische Aktualisierungen zu verhindern. RLHF ist ideal, um die Ergebnisse mit den klinischen Leitlinien in Einklang zu bringen und sicherzustellen, dass die Empfehlungen im Rahmen der genehmigten Protokolle bleiben. Dieser Ansatz erfordert viel Zeit für Rückmeldungen durch Ärzte und beinhaltet eine komplexe Trainingspipeline. RLHF ist jedoch im Gesundheitswesen besonders wertvoll, da es medizinischen Experten hilft, die Art und Weise zu gestalten, wie KI-Systeme kommunizieren und Empfehlungen aussprechen. So können Ärzte beispielsweise Feedback geben, um sicherzustellen, dass das Modell eine angemessene Art und Weise am Krankenbett beibehält, weiß, wann Unsicherheiten geäußert werden müssen, und dass es die klinischen Richtlinien einhält. Techniken wie PPO optimieren das Modellverhalten iterativ auf der Grundlage von Expertenfeedback und schränken gleichzeitig die Aktualisierung der Parameter ein, um medizinisches Kernwissen zu erhalten. Auf diese Weise können Modelle komplexe Diagnosen in einer patientenfreundlichen Sprache vermitteln und gleichzeitig schwerwiegende Erkrankungen für eine sofortige medizinische Behandlung kennzeichnen. Dies ist entscheidend für das Gesundheitswesen, wo es sowohl auf Genauigkeit als auch auf den Kommunikationsstil ankommt. Weitere Informationen zu RLHF finden Sie unter Feinabstimmung umfangreicher Sprachmodelle mit verstärkendem Lernen anhand von menschlichem oder künstlichem Feedback (AWS Blogbeitrag).

Methoden der Implementierung

Ein vollständiges Parameter-Update beinhaltet die Aktualisierung aller Modellparameter während des Trainings. Dieser Ansatz eignet sich am besten für Systeme zur Unterstützung klinischer Entscheidungen, die eine umfassende Integration von Patientenanamnese, Laborergebnissen und sich weiterentwickelnden Richtlinien erfordern. Zu den Nachteilen gehören hohe Rechenkosten und das Risiko einer Überanpassung, wenn Ihr Datensatz nicht umfangreich und vielfältig ist.

Bei Methoden zur parametereffizienten Feinabstimmung (PEFT) wird nur eine Teilmenge von Parametern aktualisiert, um eine Überanpassung oder einen katastrophalen Verlust von Sprachkenntnissen zu verhindern. Zu den Typen gehören Low-Rank Adaptation (LoRa), Adapter und Präfix-Tuning. PEFT-Methoden bieten geringere Rechenkosten, schnellere Schulungen und eignen sich hervorragend für Experimente wie die Anpassung eines Modells zur Unterstützung klinischer Entscheidungen an die Protokolle oder Terminologie eines neuen Krankenhauses. Die größte Einschränkung ist die potenziell verringerte Leistung im Vergleich zu vollständigen Parameteraktualisierungen.

Weitere Informationen zu Feinabstimmungsmethoden finden Sie unter Erweiterte Feinabstimmungsmethoden auf Amazon SageMaker AI (AWS Blogbeitrag).

Einen Datensatz zur Feinabstimmung erstellen

Die Qualität und Vielfalt des Datensatzes zur Feinabstimmung ist entscheidend für die Leistung, Sicherheit und Vermeidung von Verzerrungen von Modellen. Die folgenden drei wichtigen Bereiche sollten bei der Erstellung dieses Datensatzes berücksichtigt werden:

  • Das Volumen basiert auf einem Feinabstimmungsansatz

  • Datenanmerkung von einem Fachexperten

  • Vielfalt des Datensatzes

Wie in der folgenden Tabelle dargestellt, variieren die Anforderungen an die Datensatzgröße für die Feinabstimmung je nach Art der durchgeführten Feinabstimmung.

Strategie für die Feinabstimmung

Größe des Datensatzes

An die Domäne angepasste Vorschulung

Über 100.000 Domain-Texte

Beaufsichtigte Feinabstimmung

Über 10.000 beschriftete Paare

Verstärktes Lernen aus menschlichem Feedback

Präferenzpaare für mehr als 1.000 Experten

Sie können Amazon EMR und Amazon SageMaker Data Wrangler verwenden AWS Glue, um den Datenextraktions - und Transformationsprozess zu automatisieren, um einen Datensatz zu kuratieren, den Sie besitzen. Wenn Sie nicht in der Lage sind, einen ausreichend großen Datensatz zu kuratieren, können Sie Datensätze finden und direkt in Ihren Browser herunterladen. AWS-Konto AWS Data Exchange Konsultieren Sie Ihren Rechtsbeistand, bevor Sie Datensätze von Drittanbietern verwenden.

Erfahrene Annotatoren mit Fachkenntnissen wie Ärzte, Biologen und Chemiker sollten Teil des Datenkurationsprozesses sein, um die Nuancen medizinischer und biologischer Daten in die Modellausgabe einfließen zu lassen. Amazon SageMaker Ground Truth bietet eine Low-Code-Benutzeroberfläche, über die Experten den Datensatz kommentieren können.

Ein Datensatz, der die menschliche Bevölkerung repräsentiert, ist für die Feinabstimmung von Anwendungsfällen im Gesundheitswesen und in den Biowissenschaften unerlässlich, um Verzerrungen zu vermeiden und reale Ergebnisse widerzuspiegeln. AWS Glue interaktive Sitzungen oder SageMaker Amazon-Notebook-Instances bieten eine leistungsstarke Möglichkeit, Datensätze iterativ zu untersuchen und Transformationen mithilfe von Jupyter-kompatiblen Notebooks zu optimieren. Interaktive Sitzungen ermöglichen es Ihnen, mit einer Auswahl beliebter integrierter Entwicklungsumgebungen () in Ihrer lokalen Umgebung zu arbeiten. IDEs Alternativ können Sie mit AWS Glue oder Amazon SageMaker Studio-Notizbüchern über die arbeiten AWS-Managementkonsole.

Feinabstimmung des Modells

AWS bietet Dienste wie Amazon SageMaker AI und Amazon Bedrock, die für eine erfolgreiche Feinabstimmung entscheidend sind.

SageMaker KI ist ein vollständig verwalteter Service für maschinelles Lernen, der Entwicklern und Datenwissenschaftlern hilft, ML-Modelle schnell zu erstellen, zu trainieren und bereitzustellen. Zu den drei nützlichen Funktionen von SageMaker KI für die Feinabstimmung gehören:

  • SageMakerSchulung — Eine vollständig verwaltete ML-Funktion, mit der Sie eine Vielzahl von Modellen effizient und in großem Maßstab trainieren können

  • SageMaker JumpStart— Eine Funktion, die auf SageMaker Trainingsaufgaben aufbaut und vortrainierte Modelle, integrierte Algorithmen und Lösungsvorlagen für ML-Aufgaben bereitstellt

  • SageMaker HyperPod— Eine speziell entwickelte Infrastrukturlösung für die verteilte Schulung von Basismodellen und LLMs

Amazon Bedrock ist ein vollständig verwalteter Service, der über eine API Zugriff auf leistungsstarke Fundamentmodelle mit integrierten Sicherheits-, Datenschutz- und Skalierbarkeitsfunktionen bietet. Der Service bietet die Möglichkeit, mehrere verfügbare Basismodelle zu verfeinern. Weitere Informationen finden Sie in der Amazon Bedrock-Dokumentation unter Unterstützte Modelle und Regionen zur Feinabstimmung und weiteren Vorschulung.

Bei der Feinabstimmung mit einem der beiden Services sollten Sie das Basismodell, die Feinabstimmungsstrategie und die Infrastruktur berücksichtigen.

Wahl des Basismodells

Closed-Source-Modelle wie Anthropic Claude, Meta Llama und Amazon Nova bieten eine starke out-of-the-box Leistung mit verwalteter Compliance, beschränken aber die Flexibilität bei der Feinabstimmung auf vom Anbieter unterstützte Optionen wie Amazon Bedrock. APIs Dies schränkt die Anpassungsfähigkeit ein, insbesondere für regulierte Anwendungsfälle im Gesundheitswesen. Im Gegensatz dazu bieten Open-Source-Modelle wie Meta Llama die volle Kontrolle und Flexibilität über die Amazon SageMaker AI-Services hinweg und eignen sich daher ideal, wenn Sie ein Modell an Ihre spezifischen Daten- oder Workflow-Anforderungen anpassen, prüfen oder tiefgreifend anpassen müssen.

Feinabstimmung der Strategie

Die einfache Anpassung der Anweisungen kann über Amazon Bedrock Model Customization oder Amazon SageMaker JumpStart vorgenommen werden. Komplexe PEFT-Ansätze, wie LoRa oder Adapter, erfordern SageMaker Schulungsaufgaben oder benutzerdefinierte Feinabstimmungsfunktionen in Amazon Bedrock. Verteilte Schulungen für sehr große Modelle werden unterstützt von. SageMaker HyperPod

Skalierung und Kontrolle der Infrastruktur

Vollständig verwaltete Services wie Amazon Bedrock minimieren das Infrastrukturmanagement und eignen sich ideal für Unternehmen, die Wert auf Benutzerfreundlichkeit und Compliance legen. Teilweise verwaltete Optionen, wie z. B. SageMaker JumpStart, bieten eine gewisse Flexibilität bei geringerer Komplexität. Diese Optionen eignen sich für schnelles Prototyping oder für die Verwendung vorgefertigter Workflows. Vollständige Kontrolle und Anpassung sind mit SageMaker Schulungsaufträgen verbunden. Diese erfordern HyperPod jedoch mehr Fachwissen und eignen sich am besten, wenn Sie für große Datenmengen skalieren müssen oder benutzerdefinierte Pipelines benötigen.

Überwachung fein abgestimmter Modelle

Im Gesundheitswesen und in den Biowissenschaften erfordert die Überwachung der LLM-Feinabstimmung die Überwachung mehrerer wichtiger Leistungsindikatoren. Genauigkeit ist eine Basismessung, die jedoch gegen Präzision und Wiederauffindbarkeit abgewogen werden muss, insbesondere bei Anwendungen, bei denen Fehlklassifizierungen erhebliche Folgen haben. Der F1-Score hilft dabei, Probleme des Klassenungleichgewichts zu lösen, die in medizinischen Datensätzen häufig vorkommen können. Weitere Informationen finden Sie unter Evaluierung LLMs für Anwendungen im Gesundheitswesen und in den Biowissenschaften in diesem Handbuch.

Mithilfe von Kalibrierungsmetriken können Sie sicherstellen, dass die Konfidenzniveaus des Modells den realen Wahrscheinlichkeiten entsprechen. Fairness-Metriken können Ihnen dabei helfen, potenzielle Verzerrungen bei verschiedenen demografischen Merkmalen der Patienten zu erkennen.

MLflowist eine Open-Source-Lösung, mit der Sie Feinabstimmungsexperimente nachverfolgen können. MLflow wird von Amazon SageMaker AI nativ unterstützt, sodass Sie Metriken von Trainingsläufen visuell vergleichen können. Für die Feinabstimmung von Jobs auf Amazon Bedrock werden Metriken an Amazon gestreamt, CloudWatch sodass Sie die Metriken in der Konsole visualisieren können. CloudWatch