Einrichtung von Belohnungsfunktionen für Modelle mit offenem Gewicht - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Einrichtung von Belohnungsfunktionen für Modelle mit offenem Gewicht

Belohnungsfunktionen bewerten die Antwortqualität und liefern Feedbacksignale für das Modelltraining. Sie können Belohnungsfunktionen mit benutzerdefinierten Lambda-Funktionen einrichten. Wählen Sie den Ansatz, der Ihren Aufgabenanforderungen entspricht.

Benutzerdefinierte Lambda-Funktionen für die Bewertung von Belohnungen

Sie können Belohnungsfunktionen mit benutzerdefinierten Lambda-Funktionen einrichten. Innerhalb Ihrer Lambda-Funktion haben Sie Flexibilität bei der Implementierung der Bewertungslogik:

  • Objektive Aufgaben — Verwenden Sie für objektive Aufgaben wie Codegenerierung oder mathematisches Denken überprüfbare regelbasierte Korrektoren, die die Richtigkeit anhand bekannter Standards oder Testfälle überprüfen.

  • Subjektive Aufgaben — Rufen Sie bei subjektiven Aufgaben wie der Befolgung von Anweisungen oder Chatbot-Interaktionen Amazon Bedrock Foundation-Modelle als Richter innerhalb Ihrer Lambda-Funktion auf, um die Antwortqualität anhand Ihrer Kriterien zu bewerten.

Ihre Lambda-Funktion kann je nach Aufgabenanforderungen komplexe Logik implementieren APIs, externe integrieren, mehrstufige Berechnungen durchführen oder mehrere Bewertungskriterien kombinieren.

Anmerkung

Wenn Sie benutzerdefinierte Lambda-Funktionen verwenden:

  • Erhöhen Sie das Lambda-Timeout für komplexe Auswertungen von standardmäßig 3 Sekunden auf maximal 15 Minuten.

  • Die Lambda-Ausführungsrolle benötigt Berechtigungen zum Aufrufen der Lambda-Funktion, wie unter beschrieben. Lambda-Berechtigungen für Belohnungsfunktionen

Einzelheiten zur Implementierung der Lambda-Funktion

Bei der Implementierung benutzerdefinierter Lambda-Belohnungsfunktionen muss Ihre Funktion Daten im folgenden Format akzeptieren und zurückgeben.

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

Richtlinien für das Design

  • Antworten einordnen — Geben Sie der besten Antwort eine deutlich höhere Punktzahl

  • Verwenden Sie konsistente Prüfungen — Beurteilen Sie die Erledigung der Aufgaben, die Einhaltung des Formats, die Sicherheit und die angemessene Dauer

  • Beibehaltung einer stabilen Skalierung — Sorgen Sie dafür, dass die Ergebnisse normalisiert werden und nicht ausgenutzt werden können