Bereite deine Trainingsdaten und Belohnungsfunktionen für die Feinabstimmung der Verstärkung vor - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bereite deine Trainingsdaten und Belohnungsfunktionen für die Feinabstimmung der Verstärkung vor

Um einen Job zur Feinabstimmung der Verstärkung zu erstellen, benötigen Sie Trainingsdaten und Belohnungsfunktionen, mit denen die Antwortqualität bewertet wird. Im Gegensatz zur herkömmlichen Feinabstimmung, die Input-Output-Paare erfordert, verwendet RFT Eingabeaufforderungen und Belohnungssignale, um das Modelllernen zu steuern.

Sie können bestehende Amazon Bedrock API-Aufrufprotokolle als Trainingsdaten verwenden oder neue Datensätze hochladen. Belohnungsfunktionen definieren, was eine gute Antwort ausmacht, und können auf regelbasierte Überprüfung (RLVR) oder KI-gestützte Beurteilung (RLAIF) zurückgreifen.

Wichtig

Sie können Amazon Bedrock maximal 20.000 Eingabeaufforderungen zur Feinabstimmung des Modells zur Verstärkung senden.