Voraussetzungen Erstellen Sie Ihren RFT-Job Arbeitsablauf für RFT-Jobs Inferenz einrichten

Erstellen Sie einen Auftrag zur Feinabstimmung von Verstärkungen

Sie können mithilfe der Amazon Bedrock-Konsole oder API einen Auftrag zur Feinabstimmung von Verstärkungen erstellen. Der RFT-Job kann je nach Größe Ihrer Trainingsdaten, Anzahl der Epochen und Komplexität Ihrer Belohnungsfunktionen mehrere Stunden dauern.

Themen

Voraussetzungen

Erstellen Sie eine IAM-Servicerolle, um auf den Amazon S3 S3-Bucket zuzugreifen, in dem Sie Ihre RFT-Trainingsdaten und Ausgabeartefakte speichern möchten. Sie können diese Rolle automatisch mithilfe von AWS-Managementkonsole oder manuell erstellen. Informationen zu RFT-spezifischen Berechtigungen finden Sie unter. Verstärkung, Feinabstimmung von Zugriff und Sicherheit
(Optional) Verschlüsseln Sie Eingabe- und Ausgabedaten, Ihren RFT-Job oder Inferenzanfragen für benutzerdefinierte Modelle. Weitere Informationen finden Sie unter Verschlüsselung von benutzerdefinierten Modellen.

Erstellen Sie Ihren RFT-Job

Wählen Sie die Registerkarte für Ihre bevorzugte Methode aus und befolgen Sie dann die Schritte:

Console

Gehen Sie wie folgt vor, um einen RFT-Job in der Konsole einzureichen:

Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon Bedrock-Konsole unter https://console.aws.amazon.com/bedrock.
Wählen Sie im linken Navigationsbereich unter Optimieren die Option Benutzerdefinierte Modelle aus.
Wählen Sie in der Tabelle Modelle die Option Erstellen aus. Wählen Sie dann Auftrag zur Feinabstimmung von Bewehrungen erstellen aus.
Wählen Sie im Abschnitt Modelldetails Amazon Nova 2 Lite als Basismodell aus.
Geben Sie im Abschnitt Anpassungsdetails den Namen der Anpassung ein.
Wählen Sie im Abschnitt Trainingsdaten Ihre Datenquelle aus:
- Gespeicherte Aufruf-Logs verwenden — Wählen Sie aus Ihren verfügbaren Aufruf-Logs, die in Amazon S3 gespeichert sind
- Neuen Datensatz hochladen — Wählen Sie den Amazon S3 S3-Speicherort Ihrer Trainingsdatensatz-Datei aus oder laden Sie eine Datei direkt von Ihrem Gerät hoch
Anmerkung
Ihr Trainingsdatensatz sollte im OpenAI Chat Completions-Datenformat vorliegen. Wenn Sie Aufrufprotokolle im Amazon Bedrock Invoke- oder Converse-Format bereitstellen, konvertiert Amazon Bedrock sie automatisch in das Format Chat Completions.
Richten Sie im Bereich „Prämienfunktion“ Ihren Belohnungsmechanismus ein:
- Model as Judge (RLAIF) — Wählen Sie ein von Bedrock gehostetes Basismodell als Richter aus und konfigurieren Sie die Anweisungen für die Bewertung. Verwenden Sie dies für subjektive Aufgaben wie die Moderation von Inhalten.
  
  Anmerkung
  Die Option Model as Judge der Konsole wandelt Ihre Konfiguration während des Trainings automatisch in eine Lambda-Funktion um.
- Benutzerdefinierter Code (RLVR) — Erstellen Sie benutzerdefinierte Belohnungsfunktionen mithilfe von Python-Code, der über Lambda-Funktionen ausgeführt wird. Verwenden Sie dies für objektive Aufgaben wie die Codegenerierung.
Weitere Informationen finden Sie unter Belohnungsfunktionen einrichten.
(Optional) Passen Sie im Bereich Hyperparameter die Trainingsparameter an oder verwenden Sie Standardwerte.
Geben Sie im Abschnitt Ausgabedaten den Amazon S3 S3-Speicherort ein, an dem Bedrock die Jobausgaben speichern soll.
Wählen Sie im Abschnitt Rollenkonfiguration Folgendes aus:
- Wählen Sie eine bestehende Rolle — Wählen Sie aus der Dropdownliste
- Eine Rolle erstellen — Geben Sie einen Namen für die Servicerolle ein
(Optional) Konfigurieren Sie im Abschnitt Zusätzliche Konfiguration:
- Validierungsdaten durch Verweisen auf einen Amazon S3 S3-Bucket
- KMS-Verschlüsselungseinstellungen
- Job- und Model-Tags
Wählen Sie „Auftrag zur Feinabstimmung von Bewehrungen erstellen“, um mit dem Auftrag zu beginnen.

API

Senden Sie eine CreateModelCustomizationJob Anfrage mit der customizationType Einstellung aufREINFORCEMENT_FINE_TUNING. Sie müssen die folgenden Felder angeben:

Erforderliche Felder:

roleArn- ARN der Servicerolle mit RFT-Rechten
baseModelIdentifier- Modell-ID oder ARN des Foundation-Modells zum Anpassen
customModelName- Name für das neu angepasste Modell
jobName- Name für den Ausbildungsjob
customizationType – festlegen auf REINFORCEMENT_FINE_TUNING
trainingDataConfig- Amazon S3 S3-URI des Trainingsdatensatzes oder der Konfiguration des Aufrufprotokolls
outputDataConfig- Amazon S3 S3-URI zum Schreiben von Ausgabedaten
rftConfig- Konfiguration der Belohnungsfunktion (RLVR oder RLAIF) und Konfiguration der Hyperparameter

Beispiel für eine Anfrage:


{
    "roleArn": "arn:aws:iam::123456789012:role/BedrockRFTRole",
    "baseModelIdentifier": "amazon.nova-2.0",
    "customModelName": "my-rft-model",
    "jobName": "my-rft-job",
    "customizationType": "REINFORCEMENT_FINE_TUNING",
    "trainingDataConfig": {
        "s3Uri": "s3://my-bucket/training-data.jsonl"
    },
    "customizationConfig": {
        "rftConfig" : {
            "graderConfig": {
                "lambdaGrader": {
                    "lambdaArn": "arn:aws:lambda:us-east-1:123456789012:function:function-name"
                }
            },
            "hyperParameters": {
                "batchSize": 64,
                "epochCount": 2,
                "evalInterval": 10,
                "inferenceMaxTokens": 8192,
                "learningRate": 0.00001,
                "maxPromptLength": 4096,
                "reasoningEffort": "high",
                "trainingSamplePerPrompt": 4
            }
        }
    },
    "outputDataConfig": {
        "s3Uri": "s3://my-bucket/rft-output/"
    }
}

Python-API-Beispielanfrage:


import boto3

bedrock = boto3.client(service_name='bedrock')
    
# Set parameters
customizationType = "REINFORCEMENT_FINE_TUNING"
baseModelIdentifier = "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-lite-v1:0:256k"
roleArn = "${your-customization-role-arn}"
jobName = "MyFineTuningJob"
customModelName = "MyCustomModel"

customizationConfig = {
    'rftConfig' : {
        'graderConfig': {
            'lambdaGrader': {
                'lambdaArn': 'arn:aws:lambda:us-east-1:123456789012:function:function-name'
            }
        },
        'hyperParameters': {
            'batchSize': 64,
            'epochCount': 2,
            'evalInterval': 10,
            'inferenceMaxTokens': 8192,
            'learningRate':0.00001,
            'maxPromptLength': 4096,
            'reasoningEffort': 'high',
            'trainingSamplePerPrompt':4
        }
    }
}

trainingDataConfig = {"s3Uri": "s3://${training-bucket}/myInputData/train.jsonl"}
outputDataConfig = {"s3Uri": "s3://${output-bucket}/myOutputData"}

# Create job
response_ft = bedrock.create_model_customization_job(
    jobName=jobName, 
    customModelName=customModelName,
    roleArn=roleArn,
    baseModelIdentifier=baseModelIdentifier,
    customizationConfig=customizationConfig,
    trainingDataConfig=trainingDataConfig,
    outputDataConfig=outputDataConfig,
    customizationType=customizationType
)

jobArn = response_ft['jobArn']

Arbeitsablauf für RFT-Jobs

Der RFT-Job folgt diesem automatisierten Workflow:

Generierung von Antworten — Das Akteurmodell generiert Antworten anhand von Trainingsaufforderungen
Berechnung von Belohnungen — Belohnungsfunktionen werten Paare zwischen Aufforderung und Antwort aus
Training mit Schauspielermodellen — Das Modell lernt mithilfe von GRPO aus bewerteten Paaren

Während des Trainings können Sie den Fortschritt anhand von Echtzeitgrafiken mit Trainings- und Validierungsmetriken wie Verlust, Belohnung, Gewinnspanne und Genauigkeit überwachen. Nach erfolgreicher Ausführung wird ein RFT-Modell mit einem benutzerdefinierten Modell-ARN erstellt.

Inferenz einrichten

Nach Abschluss des Jobs können Sie das resultierende RFT-Modell mit einem Klick für On-Demand-Inferenzen bereitstellen. Sie können Provisioned Throughput auch für unternehmenskritische Workloads verwenden, die eine konsistente Leistung erfordern. Sobald die Inferenz eingerichtet ist, verwenden Sie Test in Playground, um die Antworten interaktiv zu bewerten und mit dem Basismodell zu vergleichen. side-by-side

Informationen zur Überwachung Ihres RFT-Auftragsfortschritts finden Sie unter. Überwachen Sie Ihren RFT-Trainingsjob

Informationen zur Bewertung Ihres fertigen RFT-Modells finden Sie unter. Evaluieren Sie Ihr RFT-Modell

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Belohnungsfunktionen einrichten

Überwachen Sie Ihren RFT-Trainingsjob