Full-Rank-Feinabstimmung Low-Rank-Adapter-Feinabstimmung Direkte Präferenzoptimierung Destillation

SageMaker-AI-Trainingsjobs

Die Anpassung von Amazon-Nova-Modellen mit Amazon SageMaker Training Jobs erfolgt nach einem strukturierten Workflow, der den komplexen Prozess der Feinabstimmung großer Sprachmodelle vereinfacht. Dieser End-to-End-Workflow umfasst das Modelltraining, die Bewertung und die Bereitstellung von Modellen für die Inferenz. Weitere Informationen finden Sie unter Anpassen von Amazon-Nova-Modellen im Entwicklerhandbuch für Amazon SageMaker AI.

Mit Amazon SageMaker AI können Sie bereits vorhandene, vortrainierte Grundlagenmodelle wie Amazon Nova optimieren, ohne Ihre eigenen Modelle von Grund auf neu trainieren zu müssen. In den folgenden Abschnitten werden die Feinabstimmungsoptionen in SageMaker AI bei der Arbeit mit Amazon-Nova-Grundlagenmodellen detailliert beschrieben.

Full-Rank-Feinabstimmung

Die Full-Rank-Feinabstimmung modifiziert alle Parameter des Grundlagenmodells, um dessen Leistung für bestimmte Aufgaben oder Domains zu optimieren. Dieser umfassende Ansatz aktualisiert die gesamte Modellarchitektur und ermöglicht tiefgreifendere Anpassungen als adapterbasierte Methoden. Weitere Informationen finden Sie unter Feinabstimmung von Grundlagenmodellen.

So funktioniert die Full-Rank-Feinabstimmung

Bei der Full-Rank-Feinabstimmung lernt das Modell, indem es alle Parameter anhand Ihrer Trainingsdaten aktualisiert. Der Ablauf der Full-Rank-Feinabstimmung:

Ermöglicht es dem Modell, Fachwissen für Ihre Domain zu entwickeln.
Ermöglicht wesentliche Änderungen an den zugrunde liegenden Darstellungen des Modells.
Erfordert im Vergleich zu adapterbasierten Methoden mehr Rechenressourcen, kann jedoch eine bessere aufgabenspezifische Leistung erzielen.

Wann sollte man sich für die Full-Rank-Feinabstimmung entscheiden

In den folgenden Szenarien empfehlen wir, die Full-Rank-Feinabstimmung zu verwenden:

Wenn die LoRA-PEFT-Feinabstimmung nicht die gewünschten Leistungsniveaus erreicht.
Für spezialisierte Domains, die fundiertes Fachwissen erfordern (wie Medizin, Recht oder Technik).
Wenn Sie über große, qualitativ hochwertige Datensätze für Ihren Anwendungsfall verfügen.
Wenn Genauigkeitsanforderungen Überlegungen zu Rechenkosten überwiegen.
Für Anwendungen, die eine erhebliche Abweichung vom Verhalten des Grundlagenmodells erfordern.

Low-Rank-Adapter-Feinabstimmung

Die effektivste und kostengünstigste Methode zur Verbesserung der Leistung des Grundlagenmodells ist die parametereffizienter Feinabstimmung mit Low-Rank-Adapter (LoRA PEFT). Das Grundprinzip von LoRA PEFT besteht darin, dass nur eine geringe Anzahl zusätzlicher Gewichte aktualisiert werden muss, um es an neue Aufgaben oder Domains anzupassen.

LoRA-PEFT optimiert Grundlagenmodelle effizient, indem trainierbare Gewichtsmatrizen mit niedrigem Rang in spezifische Modellebenen eingeführt werden, wodurch die Anzahl der trainierbaren Parameter reduziert wird und gleichzeitig die Modellqualität erhalten bleibt. Ein LoRa-PEFT-Adapter erweitert das Grundlagenmodell durch die Integration leichter Adapterschichten, welche die Gewichtungen des Modells während der Inferenz modifizieren und gleichzeitig die ursprünglichen Modellparameter beibehalten. Dieser Ansatz wird auch als eine der kostengünstigsten Feinabstimmungstechniken angesehen. Weitere Informationen finden Sie unter Optimieren von Modellen mit Adapter-Inferenzkomponenten.

Wann sollte LoRa PEFT genutzt werden

Wir empfehlen, in den folgenden Szenarien LoRA PEFT zu verwenden:

Im Allgemeinen sollten Sie mit LoRA PEFT anstelle anderer Feinabstimmungsmethoden beginnen, da es sich um ein schnelles Trainingsverfahren handelt.
LoRa PEFT ist in Fällen wirksam, in denen die Leistung des Grundlagenmodells bereits zufriedenstellend ist. In diesem Fall besteht das Ziel von LoRa PEFT darin, dessen Fähigkeiten für mehrere verwandte Aufgaben wie Textzusammenfassung oder Sprachübersetzung zu verbessern. Die Regularisierungseigenschaften von LoRa PEFT tragen auch dazu bei, Überanpassungen zu verhindern und das Risiko zu minimieren, dass das Modell die Quelldomain „vergisst“. Dadurch wird sichergestellt, dass das Modell vielseitig und an verschiedene Anwendungen anpassbar bleibt.
Sie können LoRA PEFT für Szenarien zur Feinabstimmung von Anweisungen mit relativ kleinen Datensätzen verwenden. LoRA PEFT schneidet bei kleineren, aufgabenspezifischen Datensätzen besser ab als bei breiteren, größeren Datensätzen.
Für umfangreiche, gekennzeichnete Datensätze, welche die Grenzen der Amazon-Bedrock-Anpassungsdaten überschreiten, können Sie LoRA PEFT in SageMaker AI verwenden, um bessere Ergebnisse zu erzielen.
Wenn Sie durch die Amazon-Bedrock-Feinabstimmung bereits vielversprechende Ergebnisse erzielt haben, kann LoRa PEFT auf SageMaker AI dabei helfen, die Hyperparameter des Modells weiter zu optimieren.

Direkte Präferenzoptimierung

Direkte Präferenzoptimierung (DPO) ist eine effiziente Methode zur Feinabstimmung von Grundlagenmodellen, bei der gepaarte Vergleichsdaten verwendet werden, um die Modellergebnisse an den menschlichen Präferenzen auszurichten. Dieser Ansatz bietet eine direkte Optimierung des Modellverhaltens auf der Grundlage von menschlichem Feedback darüber, welche Reaktionen wünschenswerter sind.

Warum DPO wichtig ist

Auf umfangreichen Daten trainierte Grundlagenmodelle generieren häufig Ergebnisse, die zwar sachlich korrekt sind, jedoch nicht mit den spezifischen Anforderungen der Benutzer, den Werten der Organisation oder den Sicherheitsanforderungen übereinstimmen. DPO schließt diese Lücke, indem es Ihnen Folgendes bietet:

Feinabstimmung von Modellen auf gewünschte Verhaltensmuster.
Reduzieren unerwünschter Ausgaben oder schädlicher Antworten.
Abstimmung der Modellantworten auf die Markensprache und die Kommunikationsrichtlinien.
Verbesserung der Antwortqualität auf Grundlage des Feedbacks von Domainexperten.

Funktionsweise von DPO

DPO verwendet gepaarte Beispiele, bei denen menschliche Bewerter angeben, welche von zwei möglichen Antworten bevorzugt wird. Das Modell wird darauf trainiert, die Wahrscheinlichkeit der Generierung bevorzugter Antworten zu maximieren und gleichzeitig unerwünschte Antworten zu minimieren. Sie können DPO mithilfe einer der folgenden Techniken implementieren:

Full-Rank-DPO: Aktualisiert alle Modellparameter, um sie für bevorzugte Reaktionen zu optimieren.
LoRa-basierte DPO: Verwendet leichtgewichtige Adapter, um Präferenzausrichtungen zu erlernen, wodurch weniger Rechenressourcen benötigt werden.

Wann sollte DPO verwendet werden

Wir empfehlen, DPO in den folgenden Szenarien zu verwenden:

Optimierung für subjektive Ergebnisse, die eine Anpassung an spezifische menschliche Präferenzen erfordern.
Anpassung der Tonalität, des Stils oder der inhaltlichen Merkmale des Modells an die gewünschten Reaktionsmuster.
Vornahme gezielter Verbesserungen an einem bestehenden Modell auf der Grundlage von Benutzerfeedback und Fehleranalysen.
Beibehaltung einer gleichbleibenden Ausgabequalität in verschiedenen Anwendungsfällen.
Implementierung von Integritätsschutz durch bevorzugte Reaktionsmuster.
Training mit belohnungsfreiem bestärkenden Lernen.
Ausschließliche Verwendung von Präferenzdaten anstelle von bewerteten oder gekennzeichneten Daten.
Verbesserung des Modells bei differenzierten Ausrichtungsaufgaben wie Nützlichkeit, Harmlosigkeit oder Ehrlichkeit.

DPO ist effektiv für die iterative Verfeinerung des Modellverhaltens durch sorgfältig kuratierte Präferenzdatensätze, die gewünschte gegenüber unerwünschten Ergebnissen aufzeigen. Die Flexibilität der Methode bei der Unterstützung von Full-Rank- und LoRA-basierten Ansätzen ermöglicht es Ihnen, die für Ihre Rechenressourcen und spezifischen Anforderungen am besten geeignete Implementierung auszuwählen.

Destillation

Die Modelldestillation ist eine Methode, mit der Wissen von großen, fortschrittlichen Modellen auf kleinere, effiziente Modelle übertragen wird. Bei Amazon-Nova-Modellen gibt ein größeres „Lehrermodell“ (wie Amazon Nova Pro oder Amazon Nova Premier) seine Funktionen an ein kleineres „Schülermodell“ (wie Amazon Nova Lite oder Amazon Nova Micro) weiter. Dadurch entsteht ein maßgeschneidertes Modell, das eine hohe Leistung beibehält und gleichzeitig weniger Ressourcen verbraucht.

Informationen dazu, wie Sie dies mithilfe von SageMaker-AI-Trainingsjobs abschließen können, finden Sie unter Amazon-Nova-Destillation.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Mit Amazon SageMaker AI

Training zu SageMaker AI HyperPod