Verstärkendes Lernen durch verifizierbare Prämien (RLVR)Verstärktes Lernen durch KI-Feedback (RLAIF)Einzelheiten zur Implementierung der Lambda-Funktion

Prämienfunktionen für Amazon Nova-Modelle einrichten

Belohnungsfunktionen bewerten die Antwortqualität und liefern Feedbacksignale für das Modelltraining. Sie können Prämienfunktionen einrichten, indem Sie benutzerdefinierte Lambda-Funktionen oder von Amazon Bedrock gehostete Foundation-Modelle als Juroren verwenden. Es stehen Vorlagen mit Anleitung zur Verfügung, um die Erstellung von Prämienfunktionen für allgemeine Aufgaben wie die Befolgung von Anweisungen und die Validierung von Formaten zu vereinfachen. Wählen Sie den Ansatz, der Ihren Aufgabenanforderungen entspricht.

Verstärkendes Lernen durch verifizierbare Prämien (RLVR)

RLVR optimiert Modelle für objektive Aufgaben wie Codegenerierung oder mathematisches Denken mithilfe überprüfbarer regelbasierter Korrektoren oder Vorlagen. ready-to-use

Sie haben zwei Optionen für RLVR (Benutzerdefinierter Code):

Die Amazon Bedrock-Konsole bietet Beispielvorlagen für Grader-Lambda-Funktionen:

Mathematisches Denken mit Überprüfung der Grundwahrheit
Formatvalidierung und Überprüfung von Einschränkungen
Generische Lambda-Vorlage für Grader mit Boilerplate-Code

Folgen Sie den Anweisungen in der bereitgestellten Vorlage auf der Seite RFT-Job erstellen in der Amazon Bedrock-Konsole.

Erstellen Sie benutzerdefinierte Belohnungsfunktionen mit Ihrem eigenen Lambda-ARN für komplexe Logik, externe APIs, mehrstufige Berechnungen oder die Kombination mehrerer Bewertungskriterien.

Anmerkung

Wenn Sie Ihre eigene Lambda-Funktion mitbringen, beachten Sie Folgendes:

Erhöhen Sie das Lambda-Timeout für komplexe Auswertungen von standardmäßig 3 Sekunden auf maximal 15 Minuten.
Die Lambda-Ausführungsrolle benötigt Berechtigungen zum Aufrufen von Modellen, wie unter beschrieben. Zugriff und Sicherheit für Amazon Nova-Modelle

Verstärktes Lernen durch KI-Feedback (RLAIF)

RLAIF optimiert Modelle für subjektive Aufgaben wie die Befolgung von Anweisungen oder Chatbot-Interaktionen mithilfe von KI-basierten Richtern mit Vorlagen. ready-to-use

Für RLAIF (Model as Judge):

Wählen Sie ein von Amazon Bedrock gehostetes Basismodell als Judge aus
Konfigurieren Sie die Anweisungen für die Evaluierung
Definieren Sie Bewertungskriterien und Bewertungsrichtlinien

Verfügbare Vorlagen für LLM-as-Judge Eingabeaufforderungen in der Amazon Bedrock-Konsole:

Folgender Unterricht (Schulung im Judge-Modell)
Zusammenfassung (Dialoge mit mehreren Turns)
Bewertung der Argumentation (CoT für Spezialgebiete)
Treue zur RAG (kontextbezogene Fragen und Antworten)

Anmerkung

Die Option Model as Judge der Konsole wandelt Ihre Konfiguration während des Trainings automatisch in eine Lambda-Funktion um.

Einzelheiten zur Implementierung der Lambda-Funktion

Bei der Implementierung benutzerdefinierter Lambda-Belohnungsfunktionen muss Ihre Funktion Daten im folgenden Format akzeptieren und zurückgeben.

Richtlinien für das Design

Antworten einordnen — Geben Sie der besten Antwort eine deutlich höhere Punktzahl
Verwenden Sie konsistente Prüfungen — Beurteilen Sie die Erledigung der Aufgaben, die Einhaltung des Formats, die Sicherheit und die angemessene Dauer
Beibehaltung einer stabilen Skalierung — Sorgen Sie dafür, dass die Ergebnisse normalisiert werden und nicht ausgenutzt werden können

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Vorbereiten von Daten

Erstellen Sie Aufträge zur Feinabstimmung