Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Passen Sie ein Modell mit Verstärkungsfeinabstimmung in Amazon Bedrock an
Die Feinabstimmung von Verstärkungen ist eine Technik zur Anpassung von Modellen in Amazon Bedrock. Sie verbessert die Leistung des Basismodells, indem sie Modellen anhand von Feedbacksignalen, sogenannten Belohnungen, vermittelt, was eine „gute“ Reaktion ausmacht. Während herkömmliche Methoden zur Feinabstimmung auf markierten Datensätzen basieren, wird bei der Feinabstimmung zur Verstärkung ein Feedback-gestützter Ansatz verwendet. Dadurch können Modelle auf der Grundlage von Belohnungssignalen iterativ verbessert werden. Anstatt aus festen Beispielen zu lernen, verwendet es Belohnungsfunktionen, um zu bewerten und zu beurteilen, welche Antworten für bestimmte geschäftliche Anwendungsfälle als gut erachtet werden.
Durch die Feinabstimmung von Verstärkungen lernen die Modelle, zu verstehen, was eine qualitativ hochwertige Antwort ausmacht. Sie benötigen keine riesigen Mengen an vorab beschrifteten Trainingsdaten. Dies macht die erweiterte Modellanpassung in Amazon Bedrock zugänglicher und kostengünstiger.
Die Funktion unterstützt zwei Ansätze, um Flexibilität bei der Optimierung von Modellen zu bieten:
-
Reinforcement-Learning with Verifiable Rewards (RLVR) — Nutzt regelbasierte Benoter für objektive Aufgaben wie Codegenerierung oder mathematisches Denken
-
Reinforcement Learning from AI Feedback (RLAIF) — Nutzt KI-basierte Juroren für subjektive Aufgaben wie die Befolgung von Anweisungen oder die Moderation von Inhalten
Weitere Informationen finden Sie unter Belohnungsfunktionen einrichten.
Die Feinabstimmung von Reinforcement kann die folgenden Vorteile bieten:
-
Verbesserte Modellleistung — Die Feinabstimmung der Verstärkung verbessert die Modellgenauigkeit im Vergleich zu Basismodellen. Dies ermöglicht eine Optimierung von Preis und Leistung durch das Training kleinerer, schnellerer und effizienterer Modellvarianten.
-
Flexible Trainingsdaten — Amazon Bedrock automatisiert einen Großteil der Komplexität. Dies macht die Feinabstimmung von Verstärkungen für Entwickler, die KI-Anwendungen erstellen, zugänglich. Sie können Modelle ganz einfach trainieren, indem Sie vorhandene Amazon Bedrock-Modellaufrufprotokolle als Trainingsdaten verwenden oder Ihre Datensätze hochladen.
-
Sicherheit und Compliance — Ihre firmeneigenen Daten verlassen während AWS des Anpassungsprozesses niemals die sichere, verwaltete Umgebung.
Themen
Unterstützte Modelle für die Feinabstimmung von Verstärkungen
In der folgenden Tabelle sind die Fundamentmodelle aufgeführt, die Sie mit der Feinabstimmung der Bewehrung anpassen können:
| Anbieter | Modell | Modell-ID | Unterstützung von Modellen für einzelne Regionen |
|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v 1:0:256 k | us-east-1 |
So funktioniert die Feinabstimmung von Verstärkungen
Amazon Bedrock automatisiert den RFT-Workflow vollständig in einem dreistufigen Prozess:
Phase 1: Generierung von Antworten
Das Akteurmodell (das Modell, das angepasst wird) empfängt Eingabeaufforderungen aus Ihrem Trainingsdatensatz und generiert Antworten. Standardmäßig generiert es 4 Antworten pro Aufforderung. In dieser Phase werden sowohl Single-Turn- als auch Multi-Turn-Interaktionen unterstützt, sodass verschiedene Anwendungsfälle umfassend abgedeckt werden können.
Phase 2: Berechnung der Belohnung
Vom Akteurmodell generierte Prompt-Response-Paare werden anhand der von Ihnen ausgewählten Optimierungsmodelle bewertet:
-
RLVR — Über Lambda ausführen, um Zielwerte zu berechnen
-
RLAIF — Evaluieren Sie Antworten anhand von Kriterien und Prinzipien, die Sie konfigurieren (die Konsole wandelt diese automatisch in Lambda-Funktionen um)
Phase 3: Training des Schauspielermodells
Amazon Bedrock verwendet die Prompt-Response-Paare mit Punktzahlen, um das Akteurmodell durch richtlinienbasiertes Lernen mithilfe von Group Relative Policy Optimization (GRPO) zu trainieren. Die Trainingsschleife wird iterativ fortgesetzt, bis das Modell die gewünschten Leistungskennzahlen erreicht oder vordefinierte Abbruchkriterien erfüllt.
Amazon Bedrock kümmert sich automatisch um die parallel Berechnung von Belohnungen und die Optimierung der Trainingspipeline und implementiert Schutzmaßnahmen gegen häufig auftretende Herausforderungen beim Reinforcement-Learning wie Prämien-Hacking und Zusammenbruch von Richtlinien.