Belohnungsfunktionen einrichten - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Belohnungsfunktionen einrichten

Belohnungsfunktionen bewerten die Antwortqualität und liefern Feedbacksignale für das Modelltraining. Wählen Sie den Ansatz, der Ihren Aufgabenanforderungen entspricht.

Verstärkendes Lernen durch verifizierbare Prämien (RLVR)

Mit RLVR können Sie Modelle für objektive Aufgaben wie Codegenerierung oder mathematisches Denken optimieren. Sie können Belohnungsfunktionen mithilfe überprüfbarer, regelbasierter Bewertungsfunktionen definieren oder ready-to-use Vorlagen für allgemeine Anwendungsfälle wie Formatprüfungen, Zusammenfassungen und Textähnlichkeit verwenden.

Sie haben zwei Optionen für RLVR (Benutzerdefinierter Code):

  • Von der Konsole bereitgestellte Vorlagen verwenden — Die Amazon Bedrock-Konsole bietet Beispielvorlagen für Lambda-Funktionen von Grader:

    • Mathematisches Denken mit Überprüfung der Grundwahrheit

    • Formatvalidierung und Überprüfung von Einschränkungen

    • Generische Grader-Lambda-Vorlage mit Boilerplate-Code für Ihre Grader-Lambda-Funktion

    Bevor Sie Ihre Lambda-Funktion einrichten, folgen Sie den Anweisungen in der bereitgestellten Vorlage auf der Seite „RFT-Job erstellen“ in der Amazon Bedrock-Konsole.

  • Bringen Sie Ihre eigene Lambda-Funktion mit — Erstellen Sie benutzerdefinierte Belohnungsfunktionen, die über Lambda-Funktionen mit Ihrem eigenen Lambda-ARN ausgeführt werden. Sie können mehrere Korrektoren kombinieren, um eine einzige Punktzahl zu erhalten.

Verstärkendes Lernen durch KI-Feedback (RLAIF)

RLAIF ermöglicht die Optimierung für subjektive Aufgaben wie die Befolgung von Anweisungen oder Chatbot-Interaktionen. Sie können KI-basierte Richter mit ready-to-use Vorlagen für gängige Anwendungsfälle verwenden, um die Qualität der Antworten anhand von von Ihnen definierter Kriterien zu bewerten.

Für RLAIF (Model as Judge):

  • Wählen Sie ein von Amazon Bedrock gehostetes Basismodell als Judge aus

  • Konfigurieren Sie die Anweisungen für die Evaluierung

  • Definieren Sie Bewertungskriterien und Bewertungsrichtlinien

Sie können die in der Amazon Bedrock-Konsole bereitgestellten Vorlagen für LLM-as-Judge Eingabeaufforderungen verwenden:

  • Folgende Anleitung (Schulung im Judge-Modell)

  • Zusammenfassung (Dialoge mit mehreren Turns)

  • Bewertung der Argumentation (CoT für Spezialgebiete)

  • Treue zur RAG (kontextbezogene Fragen und Antworten)

Anmerkung
  • Wenn Sie die Option Model as Judge der Konsole verwenden, konvertiert Amazon Bedrock Ihre Konfiguration automatisch in eine Lambda-Funktion, die während des Trainings ausgeführt wird.

  • Wenn Sie Ihre eigene Lambda-Funktion mitbringen, benötigt die Lambda-Ausführungsrolle die erforderlichen Berechtigungen, um Modelle mit Modell-ID oder Inferenzprofil aufzurufen, wie unter beschrieben. Grader Lambda-Funktionsberechtigungen für RLAIF