Passen Sie ein Modell mit Verstärkungsfeinabstimmung in Amazon Bedrock an - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Passen Sie ein Modell mit Verstärkungsfeinabstimmung in Amazon Bedrock an

Die Feinabstimmung von Verstärkungen ist eine Technik zur Anpassung von Modellen in Amazon Bedrock, mit der die Leistung des Basismodells verbessert wird, indem Modellen anhand von Feedbacksignalen, sogenannten Belohnungen, vermittelt wird, was eine „gute“ Reaktion ausmacht. Im Gegensatz zu herkömmlichen Methoden zur Feinabstimmung, die auf markierten Datensätzen basieren, verwendet die Feinabstimmung von Verstärkungen einen feedbackgestützten Ansatz, bei dem das Modell iterativ optimiert wird, um diese Vorteile zu maximieren.

Verstärkung, Feinabstimmung von Anwendungen und Szenarien

Verwenden Sie die Feinabstimmung der Verstärkung, wenn Sie klare, messbare Erfolgskriterien für die Bewertung der Antwortqualität definieren können. Die Feinabstimmung von Verstärkungen eignet sich hervorragend in Bereichen, in denen die Qualität der Ergebnisse objektiv gemessen werden kann, insbesondere wenn mehrere gültige Antworten vorliegen oder wenn optimale Antworten im Voraus schwer zu definieren sind. Es ist ideal für:

  • Mathematische Problemlösung und Codegenerierung (Verwendung von regelbasierten Korrektoren zur objektiven Bewertung)

  • Wissenschaftliches Denken und strukturierte Datenanalyse

  • Subjektive Aufgaben wie Befolgung von Anweisungen, Moderation von Inhalten und kreatives Schreiben (mithilfe von KI-basierten Richtern)

  • Aufgaben, die step-by-step Argumentation oder mehrstufige Problemlösung erfordern

  • Szenarien mit mehreren gültigen Lösungen, bei denen einige eindeutig besser sind als andere

  • Anwendungen, die mehrere Ziele (Genauigkeit, Effizienz, Stil) unter einen Hut bringen

  • Anwendungen, die iterative Verbesserungen, Personalisierung oder die Einhaltung komplexer Geschäftsregeln erfordern

  • Szenarien, in denen der Erfolg programmatisch anhand von Ausführungsergebnissen oder Leistungskennzahlen verifiziert werden kann

  • Fälle, in denen das Sammeln hochwertiger, beschrifteter Beispiele teuer oder unpraktisch ist

Vorteile der Feinabstimmung von Verstärkungen

  • Verbesserte Modellleistung — Die Feinabstimmung von Verstärkungen verbessert die Modellgenauigkeit im Vergleich zu Basismodellen im Durchschnitt um bis zu 66% Dies ermöglicht eine Optimierung von Preis und Leistung durch die Feinabstimmung kleinerer, schnellerer und effizienterer Modellvarianten.

  • Benutzerfreundlichkeit — Amazon Bedrock automatisiert die Komplexität der Feinabstimmung von Verstärkungen und macht sie für Entwickler zugänglich, die KI-Anwendungen entwickeln. Sie können Modelle mithilfe Ihrer hochgeladenen Datensätze oder vorhandener API-Aufrufprotokolle fein abstimmen. Sie können Belohnungsfunktionen definieren, die Modellausgaben mit benutzerdefiniertem Code mithilfe von Lambda oder model-as-a-judge Grader bewerten. Integrierte Vorlagen helfen bei der schnellen Einrichtung.

  • Sicherheit und Compliance — Ihre firmeneigenen Daten verlassen während AWS des Anpassungsprozesses niemals die sichere, verwaltete Umgebung.

Unterstützte Modelle für die Feinabstimmung von Verstärkungen

In der folgenden Tabelle sind die Fundamentmodelle aufgeführt, die Sie mit der Feinabstimmung der Bewehrung anpassen können:

Unterstützte Modelle für die Feinabstimmung von Bewehrungen
Anbieter Modell Modell-ID Name der Region Region
Amazon Nova 2 Lite amazon.nova-2-lite-v 1:0:256 k

USA Ost (Nord-Virginia)

us-east-1

OpenAI GPT-OSS-20b openai.gpt-oss-20b USA West (Oregon) us-west-2
Qwen Qwen 3 32 B qwen.qwen3-32b USA West (Oregon) us-west-2

So funktioniert die Feinabstimmung von Verstärkungen

Amazon Bedrock automatisiert den Workflow zur Feinabstimmung von Verstärkungen vollständig. Das Modell empfängt Eingabeaufforderungen aus Ihrem Trainingsdatensatz und generiert mehrere Antworten pro Aufforderung. Diese Antworten werden dann mit einer Belohnungsfunktion bewertet. Amazon Bedrock verwendet die Prompt-Response-Paare mit Punktzahlen, um das Modell mithilfe von Group Relative Policy Optimization (GRPO) durch richtlinienbasiertes Lernen zu trainieren. Die Trainingsschleife wird fortgesetzt, bis das Ende Ihrer Trainingsdaten erreicht ist oder Sie den Job an einem ausgewählten Checkpoint beenden, wodurch ein Modell erstellt wird, das für die für Sie wichtige Metrik optimiert ist.

Verstärkung, Feinabstimmung der bewährten Verfahren

  • Fangen Sie klein an — Beginnen Sie mit 100 bis 200 Beispielen, überprüfen Sie die Richtigkeit der Belohnungsfunktionen und skalieren Sie schrittweise auf der Grundlage der Ergebnisse

  • Bewertung vor der Feinabstimmung — Testen Sie die Leistung des Basismodells, bevor Sie die Feinabstimmung der Verstärkung vornehmen. Liegen die Prämien durchweg bei 0 Prozent, sollten Sie zunächst eine überwachte Feinabstimmung durchführen, um die grundlegenden Funktionen festzulegen. Wenn die Prämien mehr als 95 Prozent betragen, ist eine Feinabstimmung der Verstärkung möglicherweise unnötig

  • Überwachen Sie das Training — Verfolgen Sie die durchschnittlichen Punktzahlen und die Verteilung der Prämien. Achten Sie auf Überanpassung (die Trainingsbelohnungen steigen, während die Validierungsprämien sinken). Halte Ausschau nach besorgniserregenden Mustern wie einem Plateau der Prämien unter 0,15, einer zunehmenden Varianz der Belohnungen im Laufe der Zeit und einer sinkenden Validierungsleistung

  • Optimieren Sie die Belohnungsfunktionen — Führen Sie sie innerhalb von Sekunden (nicht Minuten) aus, minimieren Sie externe API-Aufrufe, verwenden Sie effiziente Algorithmen, implementieren Sie die richtige Fehlerbehandlung und nutzen Sie die Vorteile der parallel Skalierung von Lambda

  • Iterationsstrategie — Wenn sich die Belohnungen nicht verbessern, passen Sie das Design der Belohnungsfunktionen an, erhöhen Sie die Datensatzvielfalt, fügen Sie repräsentativere Beispiele hinzu und überprüfen Sie, ob die Belohnungssignale klar und konsistent sind