Unterstützte Modelle für die Feinabstimmung von Bewehrungen Wie funktioniert die Feinabstimmung von Verstärkungen

Passen Sie ein Modell mit Verstärkungsfeinabstimmung in Amazon Bedrock an

Die Feinabstimmung von Verstärkungen ist eine Technik zur Anpassung von Modellen in Amazon Bedrock. Sie verbessert die Leistung des Basismodells, indem sie Modellen anhand von Feedbacksignalen, sogenannten Belohnungen, vermittelt, was eine „gute“ Reaktion ausmacht. Während herkömmliche Methoden zur Feinabstimmung auf markierten Datensätzen basieren, wird bei der Feinabstimmung zur Verstärkung ein Feedback-gestützter Ansatz verwendet. Dadurch können Modelle auf der Grundlage von Belohnungssignalen iterativ verbessert werden. Anstatt aus festen Beispielen zu lernen, verwendet es Belohnungsfunktionen, um zu bewerten und zu beurteilen, welche Antworten für bestimmte geschäftliche Anwendungsfälle als gut erachtet werden.

Durch die Feinabstimmung von Verstärkungen lernen die Modelle, zu verstehen, was eine qualitativ hochwertige Antwort ausmacht. Sie benötigen keine riesigen Mengen an vorab beschrifteten Trainingsdaten. Dies macht die erweiterte Modellanpassung in Amazon Bedrock zugänglicher und kostengünstiger.

Die Funktion unterstützt zwei Ansätze, um Flexibilität bei der Optimierung von Modellen zu bieten:

Reinforcement-Learning with Verifiable Rewards (RLVR) — Nutzt regelbasierte Benoter für objektive Aufgaben wie Codegenerierung oder mathematisches Denken
Reinforcement Learning from AI Feedback (RLAIF) — Nutzt KI-basierte Juroren für subjektive Aufgaben wie die Befolgung von Anweisungen oder die Moderation von Inhalten

Weitere Informationen finden Sie unter Belohnungsfunktionen einrichten.

Die Feinabstimmung von Reinforcement kann die folgenden Vorteile bieten:

Verbesserte Modellleistung — Die Feinabstimmung der Verstärkung verbessert die Modellgenauigkeit im Vergleich zu Basismodellen. Dies ermöglicht eine Optimierung von Preis und Leistung durch das Training kleinerer, schnellerer und effizienterer Modellvarianten.
Flexible Trainingsdaten — Amazon Bedrock automatisiert einen Großteil der Komplexität. Dies macht die Feinabstimmung von Verstärkungen für Entwickler, die KI-Anwendungen erstellen, zugänglich. Sie können Modelle ganz einfach trainieren, indem Sie vorhandene Amazon Bedrock-Modellaufrufprotokolle als Trainingsdaten verwenden oder Ihre Datensätze hochladen.
Sicherheit und Compliance — Ihre firmeneigenen Daten verlassen während AWS des Anpassungsprozesses niemals die sichere, verwaltete Umgebung.

Themen

Unterstützte Modelle für die Feinabstimmung von Verstärkungen

In der folgenden Tabelle sind die Fundamentmodelle aufgeführt, die Sie mit der Feinabstimmung der Bewehrung anpassen können:

Unterstützte Modelle für die Feinabstimmung von Bewehrungen
Anbieter	Modell	Modell-ID	Unterstützung von Modellen für einzelne Regionen
Amazon	Nova 2 Lite	amazon.nova-2-lite-v 1:0:256 k	us-east-1

So funktioniert die Feinabstimmung von Verstärkungen

Amazon Bedrock automatisiert den RFT-Workflow vollständig in einem dreistufigen Prozess:

Phase 1: Generierung von Antworten

Das Akteurmodell (das Modell, das angepasst wird) empfängt Eingabeaufforderungen aus Ihrem Trainingsdatensatz und generiert Antworten. Standardmäßig generiert es 4 Antworten pro Aufforderung. In dieser Phase werden sowohl Single-Turn- als auch Multi-Turn-Interaktionen unterstützt, sodass verschiedene Anwendungsfälle umfassend abgedeckt werden können.

Phase 2: Berechnung der Belohnung

Vom Akteurmodell generierte Prompt-Response-Paare werden anhand der von Ihnen ausgewählten Optimierungsmodelle bewertet:

RLVR — Über Lambda ausführen, um Zielwerte zu berechnen
RLAIF — Evaluieren Sie Antworten anhand von Kriterien und Prinzipien, die Sie konfigurieren (die Konsole wandelt diese automatisch in Lambda-Funktionen um)

Phase 3: Training des Schauspielermodells

Amazon Bedrock verwendet die Prompt-Response-Paare mit Punktzahlen, um das Akteurmodell durch richtlinienbasiertes Lernen mithilfe von Group Relative Policy Optimization (GRPO) zu trainieren. Die Trainingsschleife wird iterativ fortgesetzt, bis das Modell die gewünschten Leistungskennzahlen erreicht oder vordefinierte Abbruchkriterien erfüllt.

Amazon Bedrock kümmert sich automatisch um die parallel Berechnung von Belohnungen und die Optimierung der Trainingspipeline und implementiert Schutzmaßnahmen gegen häufig auftretende Herausforderungen beim Reinforcement-Learning wie Prämien-Hacking und Zusammenbruch von Richtlinien.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Übermitteln eines Jobs zur Feinabstimmung oder zum fortgesetzten Vortraining eines Modells

Verstärkung, Feinabstimmung von Zugang und Sicherheit