

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Reinforcement Fine-Tuning (RFT) aktiviert SageMaker HyperPod
<a name="nova-hp-rft"></a>

Reinforcement Fine-Tuning (RFT) ist eine Technik des maschinellen Lernens, die die Modellleistung durch Feedbacksignale — messbare Werte oder Belohnungen, die auf die Qualität der Antworten hinweisen — verbessert, anstatt durch direkte Überwachung mit exakt richtigen Antworten. Im Gegensatz zur herkömmlichen überwachten Feinabstimmung, die aus Input-Output-Paaren lernt, verwendet RFT Belohnungsfunktionen, um Modellantworten zu bewerten, und optimiert das Modell iterativ, um diese Belohnungen zu maximieren.

Dieser Ansatz ist besonders effektiv für Aufgaben, bei denen es schwierig ist, die exakte korrekte Ausgabe zu definieren, Sie aber die Qualität der Antworten zuverlässig messen können. RFT ermöglicht es Modellen, komplexe Verhaltensweisen und Präferenzen durch Versuche und Feedback zu erlernen, und eignet sich daher ideal für Anwendungen, die eine nuancierte Entscheidungsfindung, kreative Problemlösung oder die Einhaltung bestimmter Qualitätskriterien erfordern, die programmatisch bewertet werden können.

**Wann sollte RFT verwendet werden**  
Verwenden Sie RFT, wenn Sie klare, messbare Erfolgskriterien definieren können, aber Schwierigkeiten haben, exakt korrekte Ergebnisse für das Training zu liefern. Es ist ideal für Aufgaben, bei denen die Qualität subjektiv oder facettenreich ist — wie kreatives Schreiben, Codeoptimierung oder komplexes Denken —, bei denen es mehrere gültige Lösungen gibt, von denen jedoch einige eindeutig besser sind als andere.

RFT funktioniert am besten, wenn Sie über Folgendes verfügen:
+ Eine zuverlässige Belohnungsfunktion, die Modellausgaben programmgesteuert auswerten kann
+ Sie müssen das Modellverhalten an bestimmten Präferenzen oder Einschränkungen ausrichten
+ Situationen, in denen die herkömmliche überwachte Feinabstimmung unzureichend ist, weil es teuer oder unpraktisch ist, hochwertige, beschriftete Beispiele zu sammeln

Ziehen Sie RFT für Anwendungen in Betracht, die iterative Verbesserungen, Personalisierung oder die Einhaltung komplexer Geschäftsregeln erfordern, die als Belohnungssignale kodiert werden können.

**Wofür ist RFT am besten geeignet**  
RFT zeichnet sich in Bereichen aus, in denen die Ausgabequalität objektiv gemessen werden kann, es jedoch schwierig ist, optimale Antworten im Voraus zu definieren:
+ **Mathematische Problemlösung: Überprüfbare Richtigkeit mit mehreren Lösungswegen**
+ **Codegenerierung und -optimierung**: Testbare Ausführungsergebnisse und Leistungskennzahlen
+ **Aufgaben zum wissenschaftlichen Denken**: Logische Konsistenz und sachliche Richtigkeit
+ **Strukturierte Datenanalyse**: Programmatisch überprüfbare Ergebnisse
+ **Mehrstufiges Denken: Aufgaben**, die eine logische Weiterentwicklung erfordern step-by-step
+ **Toolnutzung und API-Aufrufe**: Der Erfolg ist an den Ausführungsergebnissen messbar
+ **Komplexe Arbeitsabläufe**: Einhaltung bestimmter Einschränkungen und Geschäftsregeln

RFT funktioniert hervorragend, wenn Sie mehrere konkurrierende Ziele wie Genauigkeit, Effizienz und Stil in Einklang bringen müssen.

**Wann sollte der Argumentationsmodus für das RFT-Training verwendet werden**  
Amazon Nova 2.0 unterstützt den Argumentationsmodus während des RFT-Trainings. Die folgenden Modi sind verfügbar:
+ **none: Keine** Begründung (lassen Sie das Feld reasoning\$1effort weg)
+ **niedrig: Minimaler Argumentationsaufwand**
+ **hoch**: Maximales Argumentationsvermögen (Standard, wenn reasoning\$1effort angegeben ist)

**Anmerkung**  
Es gibt keine mittlere Option für RFT. Wenn das Feld reasoning\$1effort in Ihrer Konfiguration nicht vorhanden ist, ist Reasoning deaktiviert.

Verwenden Sie High Reasoning für Folgendes:
+ Komplexe analytische Aufgaben
+ Mathematische Problemlösung
+ Mehrstufige logische Deduktion
+ Aufgaben, bei denen step-by-step Denken einen Mehrwert bietet

Verwenden Sie in folgenden Fällen keine Argumentation (lassen Sie Reasoning\$1Effort weg) oder wenig Argumentation:
+ Einfache sachliche Fragen
+ Direkte Klassifizierungen
+ Geschwindigkeits- und Kostenoptimierung
+ Unkomplizierte Beantwortung von Fragen

**Wichtig**  
Höhere Argumentationsmodi erhöhen den Zeit- und Kostenaufwand für das Training, erhöhen die Inferenzlatenz und die Kosten, erhöhen aber auch die Leistungsfähigkeit des Modells für komplexe Denkaufgaben.

**Unterstützte Modelle**  
RFT onSageMaker HyperPod unterstützt Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).

**Wichtige Schritte**  
Der RFT-Prozess umfasst vier Hauptphasen:
+ **Implementierung eines Evaluators**: Erstellen Sie eine Belohnungsfunktion, um Modellantworten anhand Ihrer Qualitätskriterien programmgesteuert zu bewerten.
+ **Eingabeaufforderungen hochladen**: Bereiten Sie Trainingsdaten mit Referenzdaten für die Auswertung im angegebenen Konversationsformat vor und laden Sie sie hoch.
+ **Einen Job starten**: Starten Sie den Prozess zur Feinabstimmung der Bewehrung mit Ihren konfigurierten Parametern.
+ **Überwachung**: Verfolgen Sie den Trainingsfortschritt mithilfe von Metrik-Dashboards, um sicherzustellen, dass das Modell effektiv lernt.

Jeder Schritt baut auf dem vorherigen auf, wobei der Evaluator als Grundlage dient, der den gesamten Trainingsprozess steuert, indem er konsistente Feedbacksignale liefert.

**Topics**
+ [RFT auf Nova 2.0](nova-hp-rft-nova2.md)

# RFT auf Nova 2.0
<a name="nova-hp-rft-nova2"></a>

RFT-Trainingsdaten folgen dem OpenAI-Konversationsformat. Jedes Trainingsbeispiel ist ein JSON-Objekt, das Nachrichten, Referenzantworten und optionale Tooldefinitionen enthält. Dieser Abschnitt enthält Anleitungen zur Vorbereitung effektiver Trainingsdaten für RFT auf Nova 2.0.

**Topics**
+ [Datenformat und Struktur](#nova-hp-rft-data-format)
+ [Beschreibungen der Felder](#nova-hp-rft-field-descriptions)
+ [Anleitung zu Hyperparametern](#nova-hp-rft-monitoring-hyperparams)
+ [Zusätzliche Eigenschaften](#nova-hp-rft-additional-properties)
+ [Empfehlungen zur Größe von Datensätzen](#nova-hp-rft-dataset-size)
+ [Merkmale effektiver Trainingsdaten](#nova-hp-rft-effective-data)
+ [Überwachung von RFT-Schulungen](nova-hp-rft-monitoring.md)

## Datenformat und Struktur
<a name="nova-hp-rft-data-format"></a>

Jedes Trainingsbeispiel ist ein JSON-Objekt, das Folgendes enthält:
+ **Nachrichten**: Eine Reihe von Konversationsrunden mit System-, Benutzer- und optional Assistentenrollen
+ **reference\$1answer**: Erwartete Ausgabe- oder Bewertungskriterien für die Berechnung der Belohnung
+ **tools** (optional): Eine Reihe von Funktionsdefinitionen, die dem Modell zur Verfügung stehen
+ **id** (optional): Eindeutiger Bezeichner für Tracking und Deduplizierung

Jedes Beispiel sollte sich in einer einzigen Zeile in Ihrer JSONL-Datei befinden, mit einem JSON-Objekt pro Zeile.

### Beispiel 1: Chemisches Problem
<a name="nova-hp-rft-example-chemistry"></a>

Das folgende Beispiel zeigt ein chemisches Problem mit einer Referenzantwort, die Ground-Truth-Werte enthält:

```
{  
  "id": "chem-001",  
  "messages": [  
    {  
      "role": "system",  
      "content": "You are a helpful chemistry assistant"  
    },  
    {  
      "role": "user",  
      "content": "Predict hydrogen bond donors and acceptors for this SMILES: CCN(CC)CCC(=O)c1sc(N)nc1C"  
    }  
  ],  
  "reference_answer": {  
    "donor_bond_counts": 2,  
    "acceptor_bond_counts": 4,  
    "explanation": "Calculated using Lipinski's rule of five: N-H groups (2 donors), N and O atoms with lone pairs (4 acceptors)"  
  }  
}
```

**Anmerkung**  
Die Datei reference\$1answer enthält Ground-Truth-Werte, die anhand domänenspezifischer Regeln berechnet wurden. Ihre Belohnungsfunktion vergleicht die vom Modell vorhergesagten Werte mit diesen Referenzwerten, um einen Belohnungsscore zu berechnen.

### Beispiel 2: Mathematische Aufgabe
<a name="nova-hp-rft-example-math"></a>

Das folgende Beispiel zeigt eine mathematische Aufgabe mit Lösungsschritten:

```
{  
  "id": "math-001",  
  "messages": [  
    {  
      "role": "system",  
      "content": "You are a math tutor"  
    },  
    {  
      "role": "user",  
      "content": "Solve: 2x + 5 = 13"  
    }  
  ],  
  "reference_answer": {  
    "solution": "x = 4",  
    "steps": ["2x = 13 - 5", "2x = 8", "x = 4"]  
  }  
}
```

### Beispiel 3: Verwendung des Tools
<a name="nova-hp-rft-example-tool"></a>

Das folgende Beispiel zeigt die Verwendung von Tools mit erwartetem Verhalten:

```
{  
  "id": "tool-001",  
  "messages": [  
    {  
      "role": "system",  
      "content": "You are a helpful game master assistant"  
    },  
    {  
      "role": "user",  
      "content": "Generate a strength stat for a warrior character. Apply a +2 racial bonus modifier."  
    }  
  ],  
  "tools": [  
    {  
      "type": "function",  
      "function": {  
        "name": "StatRollAPI",  
        "description": "Generates character stats by rolling 4d6, dropping the lowest die result, and applying a modifier.",  
        "parameters": {  
          "type": "object",  
          "properties": {  
            "modifier": {  
              "description": "An integer representing the modifier to apply to the total of the stat roll.",  
              "type": "integer"  
            }  
          },  
          "required": ["modifier"]  
        }  
      }  
    }  
  ],  
  "reference_answer": {  
    "tool_called": "StatRollAPI",  
    "tool_parameters": {  
      "modifier": 2  
    },  
    "expected_behavior": "Call StatRollAPI with modifier=2 and return the calculated stat value"  
  }  
}
```

## Beschreibungen der Felder
<a name="nova-hp-rft-field-descriptions"></a>


| Feld | Description | Weitere Hinweise | Erforderlich | 
| --- |--- |--- |--- |
| id | Eindeutiger Bezeichner für dieses RFT-Beispiel | Zeichenfolge (zum Beispiel „sample-001"). Nützlich für Tracking und Deduplizierung. | Nein | 
| messages | Eine geordnete Liste von Chat-Nachrichten, die die Aufforderung und den Kontext definieren | Array von -Objekten. Das Model sieht sie in der richtigen Reihenfolge. Beginnt in der Regel mit einer Systemnachricht und dann mit einem Benutzer. | Ja | 
| nachrichten [] .role | Wer spricht in der Nachricht | Allgemeine Werte: „System“, „Benutzer“ (manchmal „Assistent“ in anderen Kontexten) | Nein | 
| nachrichten [] .content | Der Textinhalt der Nachricht | Einfache Zeichenfolge. Für das System sind es Anweisungen, für den Benutzer ist es die Aufgabe oder Eingabe. | Nein | 
| Tools | In diesem Beispiel stehen dem Modell die Werkzeugspezifikationen zur Verfügung | Reihe. Jedes Element definiert die Oberfläche und die Metadaten eines Tools. Zu den Typen können „Funktion“ oder „intern“ gehören. | Nein | 
| reference\$1answer | Die erwartete Modellausgabe für dieses Beispiel | Zeichenfolge oder Objekt, je nach Aufgabe. Wird als Ziel für die Bewertung oder Schulung verwendet. | Nein | 

**Anmerkung**  
Alle zusätzlichen benutzerdefinierten Felder (z. B. task\$1id, difficty\$1level, context\$1data) werden nicht validiert und als Metadaten an Ihre Belohnungsfunktion übergeben.

## Anleitung zu Hyperparametern
<a name="nova-hp-rft-monitoring-hyperparams"></a>

Verwenden Sie je nach Trainingsansatz die folgenden empfohlenen Hyperparameter:

**Allgemein:**
+ Epochen: 1
+ Lernrate (lr): 1e-7
+ Anzahl der Generationen: 8
+ Max. Anzahl neuer Token: 8192
+ Chargengröße: 256

**LoRa (Low-Rank-Anpassung):**
+ LoRa-Rang: 32

**Anmerkung**  
Passen Sie diese Werte an die Größe Ihres Datensatzes und die Validierungsleistung an. Überwachen Sie die Trainingsmetriken, um eine Überanpassung zu vermeiden.

## Zusätzliche Eigenschaften
<a name="nova-hp-rft-additional-properties"></a>

Mit der Einstellung „additionalProperties“: true können Sie benutzerdefinierte Felder hinzufügen, die über die grundlegenden Schemaanforderungen hinausgehen. So können Sie flexibel alle Daten hinzufügen, die Ihre Prämienfunktion für eine korrekte Auswertung benötigt.

### Allgemeine zusätzliche Felder
<a name="nova-hp-rft-common-fields"></a>

Sie können die folgenden Arten von zusätzlichen Feldern einbeziehen:

**Metadaten:**
+ task\$1id: Eindeutige Kennung für das Tracking
+ difficty\$1level: Indikator für die Komplexität des Problems
+ Domäne: Fachgebiet oder Kategorie
+ expected\$1reasoning\$1steps: Anzahl der Lösungsschritte

**Bewertungskriterien:**
+ Bewertungskriterien: Spezifische Bewertungsrubriken
+ custom\$1scoring\$1weights: Relative Bedeutung verschiedener Aspekte
+ context\$1data: Hintergrundinformationen zum Problem
+ external\$1references: Links zu relevanter Dokumentation oder Ressourcen

### Beispiel mit zusätzlichen Eigenschaften
<a name="nova-hp-rft-additional-example"></a>

Das folgende Beispiel beinhaltet benutzerdefinierte Metadatenfelder:

```
{  
  "id": "algebra_001",  
  "messages": [  
    {  
      "role": "system",  
      "content": "You are a math tutor"  
    },  
    {  
      "role": "user",  
      "content": "Solve: 2x + 5 = 13"  
    }  
  ],  
  "reference_answer": {  
    "solution": "x = 4",  
    "steps": ["2x = 13 - 5", "2x = 8", "x = 4"]  
  },  
  "task_id": "algebra_001",  
  "difficulty_level": "easy",  
  "domain": "algebra",  
  "expected_reasoning_steps": 3  
}
```

## Empfehlungen zur Größe von Datensätzen
<a name="nova-hp-rft-dataset-size"></a>

### Ausgangspunkt
<a name="nova-hp-rft-starting-point"></a>

Beginnen Sie mit den folgenden Mindestgrößen von Datensätzen:
+ Mindestens 100 Trainingsbeispiele
+ Mindestens 100 Bewertungsbeispiele

Priorisieren Sie hochwertige Eingabedaten und eine zuverlässige Belohnungsfunktion, die bei Modellantworten konsistent ausgeführt wird.

### Der Ansatz steht bei der Bewertung an erster Stelle
<a name="nova-hp-rft-evaluation-first"></a>

Bevor Sie in groß angelegte RFT-Schulungen investieren, sollten Sie die Ausgangsleistung Ihres Modells bewerten:
+ **Hohe Leistung (mehr als 95% Belohnung)**: RFT ist möglicherweise unnötig — Ihr Modell schneidet bereits gut ab
+ **Sehr schlechte Leistung (0% Prämie)**: Wechseln Sie zuerst zu SFT, um grundlegende Funktionen zu erlangen
+ **Mäßige Leistung**: RFT ist wahrscheinlich angemessen

Dieser Ansatz, bei dem die Bewertung an erster Stelle steht, stellt sicher, dass Ihre Belohnungsfunktion fehlerfrei ist, und bestimmt, ob RFT die richtige Methode für Ihren Anwendungsfall ist. Wenn Sie klein anfangen, können Sie sich mit dem RFT-Workflow vertraut machen, Probleme frühzeitig erkennen und beheben, Ihren Ansatz validieren, bevor Sie ihn skalieren, und die Zuverlässigkeit der Belohnungsfunktion testen. Nach der Validierung können Sie auf größere Datensätze expandieren, um die Leistung weiter zu verbessern.

## Merkmale effektiver Trainingsdaten
<a name="nova-hp-rft-effective-data"></a>

### Klarheit und Konsistenz
<a name="nova-hp-rft-clarity"></a>

Gute RFT-Beispiele erfordern klare, eindeutige Eingabedaten, die eine genaue Berechnung der Belohnung für verschiedene Modellergebnisse ermöglichen. Vermeiden Sie Rauschen in Ihren Daten, einschließlich:
+ Inkonsistente Formatierung
+ Widersprüchliche Bezeichnungen oder Anweisungen
+ Mehrdeutige Aufforderungen
+ Widersprüchliche Referenzantworten

Jede Unklarheit führt den Trainingsprozess in die Irre und führt dazu, dass das Modell unbeabsichtigte Verhaltensweisen erlernt.

### Diversität
<a name="nova-hp-rft-diversity"></a>

Ihr Datensatz sollte die gesamte Vielfalt der Anwendungsfälle in der Produktion erfassen, um eine robuste Leistung unter realen Bedingungen zu gewährleisten. Dazu gehören:
+ Verschiedene Problemtypen und Schwierigkeitsgrade
+ Verschiedene Eingabeformate und Sonderfälle
+ Repräsentative Stichproben aus allen erwarteten Szenarien

Diese Vielfalt trägt dazu bei, eine Überanpassung zu verhindern, und stellt sicher, dass das Modell auch unbekannte Eingaben problemlos verarbeitet.

### Überlegungen zur Belohnungsfunktion
<a name="nova-hp-rft-reward-considerations"></a>

Gestalten Sie Ihre Belohnungsfunktion für effizientes Training:
+ Innerhalb von Sekunden (nicht Minuten) ausführen
+ Effektive Parallelisierung mit Lambda
+ Geben Sie konsistente, zuverlässige Ergebnisse zurück
+ Gehen Sie elegant mit verschiedenen Arten von Modellausgaben um

Schnelle, skalierbare Belohnungsfunktionen ermöglichen schnelle Iterationen und kosteneffizientes Experimentieren in großem Maßstab.

# Überwachung von RFT-Schulungen
<a name="nova-hp-rft-monitoring"></a>

Überwachen Sie die wichtigsten Kennzahlen während der Schulung, um ein effektives Lernen sicherzustellen und potenzielle Probleme frühzeitig zu erkennen.

**Topics**
+ [Wichtige Kennzahlen, die es zu verfolgen gilt](#nova-hp-rft-monitoring-metrics)
+ [Bewertung nach RFT](#nova-hp-rft-monitoring-evaluation)
+ [Verwendung fein abgestimmter Modelle](#nova-hp-rft-monitoring-checkpoints)
+ [Einschränkungen und bewährte Methoden](#nova-hp-rft-monitoring-limitations)
+ [Fehlerbehebung](#nova-hp-rft-monitoring-troubleshooting)

## Wichtige Kennzahlen, die es zu verfolgen gilt
<a name="nova-hp-rft-monitoring-metrics"></a>

Überwachen Sie MlFlow während des Trainings die folgenden Kennzahlen:

**Kennzahlen zur Belohnung:**
+ **Durchschnittliche Prämienbewertung**: Gesamtqualität der Modellantworten (sollte im Laufe der Zeit zunehmen)
+ **Verteilung der Belohnungen**: Prozentsatz der Antworten, die hohe, mittlere und niedrige Prämien erhielten
+ **Prämien für Schulung und Validierung**: Vergleich zur Erkennung von Überanpassungen

**Kennzahlen zur Schulung:**
+ **Aktualisierungen der Richtlinien**: Anzahl der erfolgreichen Gewichtsaktualisierungen
+ **Abschlussquote bei der Einführung**: Prozentsatz der erfolgreich bewerteten Proben

**Zu den Mustern:**
+ Belohnt ein Plateau (deutet auf schlechtes Lernen hin)
+ Die Validierungsbelohnungen sinken, während die Trainingsbelohnungen steigen (Überanpassung)
+ Die Varianz der Belohnungen nimmt im Laufe der Zeit deutlich zu (Instabilität)
+ Hoher Prozentsatz von Fehlern bei der Belohnungsfunktion (Implementierungsprobleme)

**Wann sollte ich mit dem Training aufhören:**
+ Die angestrebten Leistungskennzahlen wurden erreicht
+ Die Belohnungen stagnieren und verbessern sich nicht mehr
+ Die Validierungsleistung verschlechtert sich (es wurde eine Überanpassung festgestellt)
+ Das maximale Schulungsbudget ist erreicht

## Bewertung nach RFT
<a name="nova-hp-rft-monitoring-evaluation"></a>

Evaluieren Sie nach Abschluss der Schulung Ihr fein abgestimmtes Modell, um Leistungsverbesserungen zu bewerten:
+ **Führen Sie den RFT-Evaluierungsjob** aus: Verwenden Sie den Checkpoint aus Ihrem RFT-Training als Modell
+ **Mit dem Ausgangsmodell vergleichen**: Evaluieren Sie sowohl das Basismodell als auch das fein abgestimmte Modell mit demselben Testsatz
+ **Metriken analysieren**: Überprüfen Sie aufgabenspezifische Kennzahlen (Genauigkeit, Prämienwerte usw.)
+ **Führen Sie eine qualitative Überprüfung** durch: Untersuchen Sie die Probenergebnisse manuell auf Qualität

Ausführliche Bewertungsverfahren finden Sie im Abschnitt Bewertung.

## Verwendung fein abgestimmter Modelle
<a name="nova-hp-rft-monitoring-checkpoints"></a>

**Zugreifen auf Checkpoints:**

Suchen Sie nach Abschluss des Trainings Ihren Checkpoint:

1. Navigiere zu deinem `output_path` in S3

1. Downloaden und entpacken `output.tar.gz`

1. Öffnen Sie `manifest.json`.

1. Kopieren Sie den `checkpoint_s3_bucket` Wert

**Für Inferenz bereitstellen:**

Verwenden Sie den Checkpoint S3-Pfad für Inferenzen oder weitere Schulungen:

```
run:
    model_type: amazon.nova-2-lite-v1:0:256k
    model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
```

Anweisungen zur Bereitstellung und Inferenz finden Sie im Abschnitt Inferenz.

## Einschränkungen und bewährte Methoden
<a name="nova-hp-rft-monitoring-limitations"></a>

**Aktuelle Einschränkungen:**

**Beta-Einschränkungen:**
+ Sie müssen eine neue RIG-Gruppe für RFT erstellen. Diese Einschränkung wird von GA behoben.
+ Anforderungen an den Instance-Typ: Es werden nur P5-Instances unterstützt (mindestens 8x P5.48xLarge). Demnächst: Support für kleinere Instance-Typen (voraussichtliche Ankunftszeit: Mitte Januar 2025).

**Funktionelle Einschränkungen:**
+ 15-minütiges Lambda-Timeout: Belohnungsfunktionen müssen innerhalb von 15 Minuten abgeschlossen sein
+ Nur Single-Turn-Konversationen: Konversationen mit mehreren Runden werden nicht unterstützt
+ Validierungsdatensätze: Während des Trainings nicht unterstützt. Verwenden Sie separate Bewertungsaufgaben, um den Trainingsfortschritt zu bewerten.

**Überlegungen zur Schulung:**
+ Szenarien mit geringer Belohnung: Kann Probleme bereiten, wenn weniger als 5% der Beispiele positive Prämien erhalten — ziehen Sie zuerst SFT in Betracht
+ Datenanforderungen: Benötigt eine ausreichende Vielfalt, um effektiv lernen zu können
+ Rechenkosten: Teurer als überwachte Feinabstimmung

**Nova Forge beseitigt einige dieser Einschränkungen:**
+ Unterstützt Multi-Turn-Konversationen
+ Ermöglicht Belohnungsfunktionen mit einer Zeitüberschreitung von mehr als 15 Minuten
+ Bietet erweiterte Algorithmen und Optimierungsoptionen
+ Konzipiert für komplexe Anwendungsfälle in Unternehmen, speziell auf die Entwicklung von Grenzmodellen abgestimmt

**Bewährte Verfahren:**

**Fangen Sie klein an und skalieren Sie:**
+ Beginnen Sie mit minimalen Datensätzen (100-200 Beispiele) und wenigen Trainingsepochen
+ Überprüfen Sie Ihren Ansatz, bevor Sie ihn skalieren
+ Erhöhen Sie schrittweise die Datensatzgröße und die Trainingsschritte auf der Grundlage der Ergebnisse

**Ausgangsbasis mit SFT zuerst:**
+ Wenn die Prämienwerte konstant niedrig sind (z. B. immer 0), führen Sie SFT vor RFT durch
+ RFT erfordert eine angemessene Ausgangsleistung, um sich effektiv zu verbessern

**Entwerfen Sie effiziente Belohnungsfunktionen:**
+ Ausführung in Sekunden, nicht in Minuten
+ Minimiere externe API-Aufrufe
+ Verwenden Sie effiziente Algorithmen und Datenstrukturen
+ Implementieren Sie die richtige Fehlerbehandlung
+ Vor dem Training gründlich testen
+ Nutzen Sie die Funktionen parallel Skalierung von Lambda

**Überwachen Sie das Training aktiv:**
+ Verfolge die durchschnittlichen Prämienwerte im Laufe der Zeit
+ Beobachten Sie die Verteilung der Belohnungen auf die Stichproben
+ Vergleichen Sie die Prämien für Schulungen und Validierungen
+ Achten Sie auf problematische Muster (Plateaus, Überanpassung, Instabilität)

**Iterieren Sie auf der Grundlage der Ergebnisse:**
+ Wenn sich die Belohnungen nach mehreren Iterationen nicht verbessern, passen Sie das Design der Belohnungsfunktion an
+ Erhöhen Sie die Vielfalt der Datensätze, um klarere Lernsignale bereitzustellen
+ Erwägen Sie, zu SFT zu wechseln, wenn die Prämien nahe Null bleiben
+ Experimentieren Sie mit verschiedenen Hyperparametern (Lernrate, Chargengröße)

**Optimieren Sie die Datenqualität:**
+ Sorgen Sie für vielfältige, repräsentative Beispiele
+ Schließen Sie Sonderfälle und schwierige Proben ein
+ Stellen Sie sicher, dass die Belohnungsfunktion alle Beispieltypen korrekt bewertet
+ Entferne oder repariere Beispiele, die die Belohnungsfunktion verwirren

## Fehlerbehebung
<a name="nova-hp-rft-monitoring-troubleshooting"></a>

**Fehler bei der Belohnungsfunktion:**

Symptome: Hohe Fehlerquote bei Aufrufen von Belohnungsfunktionen während des Trainings


| Problem | Symptome | Auflösung | 
| --- |--- |--- |
| Lambda-Zeitüberschreitung | Häufige Timeouts nach 15 Minuten | Optimieren Sie die Funktionsleistung; ziehen Sie Nova Forge für komplexe Evaluierungen in Betracht | 
| Unzureichende Parallelität | Fehler bei der Lambda-Drosselung | Erhöhen Sie das Lambda\$1Concurrency\$1Limit oder beantragen Sie eine Erhöhung des Kontingents | 
| Ungültiges Rückgabeformat | Das Training schlägt aufgrund von Formatfehlern fehl | Stellen Sie sicher, dass die Rückgabestruktur dem erforderlichen Schnittstellenformat entspricht | 
| Unbehandelte Ausnahmen | Zeitweise auftretende Fehler | Fügen Sie umfassende Fehlerbehandlung und Protokollierung hinzu | 
| Externe API-Fehler | Inkonsistente Bewertung | Implementieren Sie Wiederholungslogik und Fallback-Strategien | 

**Schlechte Trainingsleistung:**

Symptome: Die Belohnungen verbessern sich nicht oder stagnieren bei niedrigen Werten

Resolutionen:
+ **Überprüfen Sie die Richtigkeit der Belohnungsfunktion**: Testen Sie anhand bekannter good/bad Beispiele
+ **Überprüfen Sie die Ausgangsleistung**: Evaluieren Sie das Basismodell. Wenn die Genauigkeit nahezu Null ist, führen Sie zuerst SFT durch
+ **Erhöhen Sie die Datenvielfalt**: Fügen Sie vielfältigere Beispiele für verschiedene Szenarien hinzu
+ **Passen Sie die Hyperparameter** an: Probieren Sie verschiedene Lernraten oder Batchgrößen aus
+ **Überprüfen Sie die Qualität der Belohnungssignale**: Stellen Sie sicher, dass bei den Belohnungen zwischen guten und schlechten Antworten unterschieden wird

**Überdimensioniert:**

Symptome: Die Prämien für Schulungen steigen, während die Validierungsprämien sinken

Resolutionen:
+ **Trainingsschritte reduzieren**: Beenden Sie das Training früher
+ **Datensatzgröße erhöhen**: Weitere Trainingsbeispiele hinzufügen
+ **Regularisierung hinzufügen: Anpassen** oder `weight_decay` `entropy_coeff`
+ **Erhöhen Sie die Datenvielfalt**: Stellen Sie sicher, dass das Trainingsset die vollständige Verteilung gewährleistet