Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Prämienfunktionen für Amazon Nova-Modelle einrichten
Belohnungsfunktionen bewerten die Antwortqualität und liefern Feedbacksignale für das Modelltraining. Sie können Prämienfunktionen einrichten, indem Sie benutzerdefinierte Lambda-Funktionen oder von Amazon Bedrock gehostete Foundation-Modelle als Juroren verwenden. Es stehen Vorlagen mit Anleitung zur Verfügung, um die Erstellung von Prämienfunktionen für allgemeine Aufgaben wie die Befolgung von Anweisungen und die Validierung von Formaten zu vereinfachen. Wählen Sie den Ansatz, der Ihren Aufgabenanforderungen entspricht.
Verstärkendes Lernen durch verifizierbare Prämien (RLVR)
RLVR optimiert Modelle für objektive Aufgaben wie Codegenerierung oder mathematisches Denken mithilfe überprüfbarer regelbasierter Korrektoren oder Vorlagen. ready-to-use
Sie haben zwei Optionen für RLVR (Benutzerdefinierter Code):
Die Amazon Bedrock-Konsole bietet Beispielvorlagen für Grader-Lambda-Funktionen:
-
Mathematisches Denken mit Überprüfung der Grundwahrheit
-
Formatvalidierung und Überprüfung von Einschränkungen
-
Generische Lambda-Vorlage für Grader mit Boilerplate-Code
Folgen Sie den Anweisungen in der bereitgestellten Vorlage auf der Seite RFT-Job erstellen in der Amazon Bedrock-Konsole
Erstellen Sie benutzerdefinierte Belohnungsfunktionen mit Ihrem eigenen Lambda-ARN für komplexe Logik, externe APIs, mehrstufige Berechnungen oder die Kombination mehrerer Bewertungskriterien.
Anmerkung
Wenn Sie Ihre eigene Lambda-Funktion mitbringen, beachten Sie Folgendes:
-
Erhöhen Sie das Lambda-Timeout für komplexe Auswertungen von standardmäßig 3 Sekunden auf maximal 15 Minuten.
-
Die Lambda-Ausführungsrolle benötigt Berechtigungen zum Aufrufen von Modellen, wie unter beschrieben. Zugriff und Sicherheit für Amazon Nova-Modelle
Verstärktes Lernen durch KI-Feedback (RLAIF)
RLAIF optimiert Modelle für subjektive Aufgaben wie die Befolgung von Anweisungen oder Chatbot-Interaktionen mithilfe von KI-basierten Richtern mit Vorlagen. ready-to-use
Für RLAIF (Model as Judge):
-
Wählen Sie ein von Amazon Bedrock gehostetes Basismodell als Judge aus
-
Konfigurieren Sie die Anweisungen für die Evaluierung
-
Definieren Sie Bewertungskriterien und Bewertungsrichtlinien
Verfügbare Vorlagen für LLM-as-Judge Eingabeaufforderungen in der Amazon Bedrock-Konsole:
-
Folgender Unterricht (Schulung im Judge-Modell)
-
Zusammenfassung (Dialoge mit mehreren Turns)
-
Bewertung der Argumentation (CoT für Spezialgebiete)
-
Treue zur RAG (kontextbezogene Fragen und Antworten)
Anmerkung
Die Option Model as Judge der Konsole wandelt Ihre Konfiguration während des Trainings automatisch in eine Lambda-Funktion um.
Einzelheiten zur Implementierung der Lambda-Funktion
Bei der Implementierung benutzerdefinierter Lambda-Belohnungsfunktionen muss Ihre Funktion Daten im folgenden Format akzeptieren und zurückgeben.
Richtlinien für das Design
Antworten einordnen — Geben Sie der besten Antwort eine deutlich höhere Punktzahl
Verwenden Sie konsistente Prüfungen — Beurteilen Sie die Erledigung der Aufgaben, die Einhaltung des Formats, die Sicherheit und die angemessene Dauer
Beibehaltung einer stabilen Skalierung — Sorgen Sie dafür, dass die Ergebnisse normalisiert werden und nicht ausgenutzt werden können