Erstellen Sie einen Auftrag zur Feinabstimmung von Verstärkungen - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen Sie einen Auftrag zur Feinabstimmung von Verstärkungen

Sie können mithilfe der Amazon Bedrock-Konsole oder API einen Auftrag zur Feinabstimmung von Verstärkungen erstellen. Der RFT-Job kann je nach Größe Ihrer Trainingsdaten, Anzahl der Epochen und Komplexität Ihrer Belohnungsfunktionen mehrere Stunden dauern.

Voraussetzungen

  • Erstellen Sie eine IAM-Servicerolle, um auf den Amazon S3 S3-Bucket zuzugreifen, in dem Sie Ihre RFT-Trainingsdaten und Ausgabeartefakte speichern möchten. Sie können diese Rolle automatisch mithilfe von AWS-Managementkonsole oder manuell erstellen. Informationen zu RFT-spezifischen Berechtigungen finden Sie unter. Verstärkung, Feinabstimmung von Zugriff und Sicherheit

  • (Optional) Verschlüsseln Sie Eingabe- und Ausgabedaten, Ihren RFT-Job oder Inferenzanfragen für benutzerdefinierte Modelle. Weitere Informationen finden Sie unter Verschlüsselung von benutzerdefinierten Modellen.

Erstellen Sie Ihren RFT-Job

Wählen Sie die Registerkarte für Ihre bevorzugte Methode aus und befolgen Sie dann die Schritte:

Console

Gehen Sie wie folgt vor, um einen RFT-Job in der Konsole einzureichen:

  1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon Bedrock-Konsole unter https://console.aws.amazon.com/bedrock.

  2. Wählen Sie im linken Navigationsbereich unter Optimieren die Option Benutzerdefinierte Modelle aus.

  3. Wählen Sie in der Tabelle Modelle die Option Erstellen aus. Wählen Sie dann Auftrag zur Feinabstimmung von Bewehrungen erstellen aus.

  4. Wählen Sie im Abschnitt Modelldetails Amazon Nova 2 Lite als Basismodell aus.

  5. Geben Sie im Abschnitt Anpassungsdetails den Namen der Anpassung ein.

  6. Wählen Sie im Abschnitt Trainingsdaten Ihre Datenquelle aus:

    • Gespeicherte Aufruf-Logs verwenden — Wählen Sie aus Ihren verfügbaren Aufruf-Logs, die in Amazon S3 gespeichert sind

    • Neuen Datensatz hochladen — Wählen Sie den Amazon S3 S3-Speicherort Ihrer Trainingsdatensatz-Datei aus oder laden Sie eine Datei direkt von Ihrem Gerät hoch

    Anmerkung

    Ihr Trainingsdatensatz sollte im OpenAI Chat Completions-Datenformat vorliegen. Wenn Sie Aufrufprotokolle im Amazon Bedrock Invoke- oder Converse-Format bereitstellen, konvertiert Amazon Bedrock sie automatisch in das Format Chat Completions.

  7. Richten Sie im Bereich „Prämienfunktion“ Ihren Belohnungsmechanismus ein:

    • Model as Judge (RLAIF) — Wählen Sie ein von Bedrock gehostetes Basismodell als Richter aus und konfigurieren Sie die Anweisungen für die Bewertung. Verwenden Sie dies für subjektive Aufgaben wie die Moderation von Inhalten.

      Anmerkung

      Die Option Model as Judge der Konsole wandelt Ihre Konfiguration während des Trainings automatisch in eine Lambda-Funktion um.

    • Benutzerdefinierter Code (RLVR) — Erstellen Sie benutzerdefinierte Belohnungsfunktionen mithilfe von Python-Code, der über Lambda-Funktionen ausgeführt wird. Verwenden Sie dies für objektive Aufgaben wie die Codegenerierung.

    Weitere Informationen finden Sie unter Belohnungsfunktionen einrichten.

  8. (Optional) Passen Sie im Bereich Hyperparameter die Trainingsparameter an oder verwenden Sie Standardwerte.

  9. Geben Sie im Abschnitt Ausgabedaten den Amazon S3 S3-Speicherort ein, an dem Bedrock die Jobausgaben speichern soll.

  10. Wählen Sie im Abschnitt Rollenkonfiguration Folgendes aus:

    • Wählen Sie eine bestehende Rolle — Wählen Sie aus der Dropdownliste

    • Eine Rolle erstellen — Geben Sie einen Namen für die Servicerolle ein

  11. (Optional) Konfigurieren Sie im Abschnitt Zusätzliche Konfiguration:

    • Validierungsdaten durch Verweisen auf einen Amazon S3 S3-Bucket

    • KMS-Verschlüsselungseinstellungen

    • Job- und Model-Tags

  12. Wählen Sie „Auftrag zur Feinabstimmung von Bewehrungen erstellen“, um mit dem Auftrag zu beginnen.

API

Senden Sie eine CreateModelCustomizationJob Anfrage mit der customizationType Einstellung aufREINFORCEMENT_FINE_TUNING. Sie müssen die folgenden Felder angeben:

Erforderliche Felder:

  • roleArn- ARN der Servicerolle mit RFT-Rechten

  • baseModelIdentifier- Modell-ID oder ARN des Foundation-Modells zum Anpassen

  • customModelName- Name für das neu angepasste Modell

  • jobName- Name für den Ausbildungsjob

  • customizationType – festlegen auf REINFORCEMENT_FINE_TUNING

  • trainingDataConfig- Amazon S3 S3-URI des Trainingsdatensatzes oder der Konfiguration des Aufrufprotokolls

  • outputDataConfig- Amazon S3 S3-URI zum Schreiben von Ausgabedaten

  • rftConfig- Konfiguration der Belohnungsfunktion (RLVR oder RLAIF) und Konfiguration der Hyperparameter

Beispiel für eine Anfrage:

{ "roleArn": "arn:aws:iam::123456789012:role/BedrockRFTRole", "baseModelIdentifier": "amazon.nova-2.0", "customModelName": "my-rft-model", "jobName": "my-rft-job", "customizationType": "REINFORCEMENT_FINE_TUNING", "trainingDataConfig": { "s3Uri": "s3://my-bucket/training-data.jsonl" }, "customizationConfig": { "rftConfig" : { "graderConfig": { "lambdaGrader": { "lambdaArn": "arn:aws:lambda:us-east-1:123456789012:function:function-name" } }, "hyperParameters": { "batchSize": 64, "epochCount": 2, "evalInterval": 10, "inferenceMaxTokens": 8192, "learningRate": 0.00001, "maxPromptLength": 4096, "reasoningEffort": "high", "trainingSamplePerPrompt": 4 } } }, "outputDataConfig": { "s3Uri": "s3://my-bucket/rft-output/" } }

Python-API-Beispielanfrage:

import boto3 bedrock = boto3.client(service_name='bedrock') # Set parameters customizationType = "REINFORCEMENT_FINE_TUNING" baseModelIdentifier = "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-lite-v1:0:256k" roleArn = "${your-customization-role-arn}" jobName = "MyFineTuningJob" customModelName = "MyCustomModel" customizationConfig = { 'rftConfig' : { 'graderConfig': { 'lambdaGrader': { 'lambdaArn': 'arn:aws:lambda:us-east-1:123456789012:function:function-name' } }, 'hyperParameters': { 'batchSize': 64, 'epochCount': 2, 'evalInterval': 10, 'inferenceMaxTokens': 8192, 'learningRate':0.00001, 'maxPromptLength': 4096, 'reasoningEffort': 'high', 'trainingSamplePerPrompt':4 } } } trainingDataConfig = {"s3Uri": "s3://${training-bucket}/myInputData/train.jsonl"} outputDataConfig = {"s3Uri": "s3://${output-bucket}/myOutputData"} # Create job response_ft = bedrock.create_model_customization_job( jobName=jobName, customModelName=customModelName, roleArn=roleArn, baseModelIdentifier=baseModelIdentifier, customizationConfig=customizationConfig, trainingDataConfig=trainingDataConfig, outputDataConfig=outputDataConfig, customizationType=customizationType ) jobArn = response_ft['jobArn']

Arbeitsablauf für RFT-Jobs

Der RFT-Job folgt diesem automatisierten Workflow:

  1. Generierung von Antworten — Das Akteurmodell generiert Antworten anhand von Trainingsaufforderungen

  2. Berechnung von Belohnungen — Belohnungsfunktionen werten Paare zwischen Aufforderung und Antwort aus

  3. Training mit Schauspielermodellen — Das Modell lernt mithilfe von GRPO aus bewerteten Paaren

Während des Trainings können Sie den Fortschritt anhand von Echtzeitgrafiken mit Trainings- und Validierungsmetriken wie Verlust, Belohnung, Gewinnspanne und Genauigkeit überwachen. Nach erfolgreicher Ausführung wird ein RFT-Modell mit einem benutzerdefinierten Modell-ARN erstellt.

Inferenz einrichten

Nach Abschluss des Jobs können Sie das resultierende RFT-Modell mit einem Klick für On-Demand-Inferenzen bereitstellen. Sie können Provisioned Throughput auch für unternehmenskritische Workloads verwenden, die eine konsistente Leistung erfordern. Sobald die Inferenz eingerichtet ist, verwenden Sie Test in Playground, um die Antworten interaktiv zu bewerten und mit dem Basismodell zu vergleichen. side-by-side

Informationen zur Überwachung Ihres RFT-Auftragsfortschritts finden Sie unter. Überwachen Sie Ihren RFT-Trainingsjob

Informationen zur Bewertung Ihres fertigen RFT-Modells finden Sie unter. Evaluieren Sie Ihr RFT-Modell