Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Feinabstimmungsaufträge für Amazon Nova-Modelle erstellen und verwalten
Sie können einen RFT-Job (Reinforcement Fine-Tuning) mithilfe der Amazon Bedrock-Konsole oder API erstellen. Der RFT-Job kann je nach Größe Ihrer Trainingsdaten, Anzahl der Epochen und Komplexität Ihrer Belohnungsfunktionen einige Stunden dauern.
Voraussetzungen
-
Erstellen Sie eine IAM-Servicerolle mit den erforderlichen Berechtigungen. Umfassende Informationen zu Sicherheit und Berechtigungen, einschließlich RFT-spezifischer Berechtigungen, finden Sie unter. Zugriff und Sicherheit für Amazon Nova-Modelle
-
(Optional) Verschlüsseln Sie Eingabe- und Ausgabedaten, Ihren RFT-Job oder Inferenzanfragen für benutzerdefinierte Modelle. Weitere Informationen finden Sie unter Verschlüsselung von benutzerdefinierten Modellen.
Erstellen Sie Ihren RFT-Job
Wählen Sie die Registerkarte für Ihre bevorzugte Methode aus und befolgen Sie dann die Schritte:
Überwachen Sie Ihren RFT-Trainingsjob
Amazon Bedrock bietet Echtzeitüberwachung mit visuellen Grafiken und Metriken während des RFT-Trainings. Diese Kennzahlen helfen Ihnen zu verstehen, ob das Modell richtig konvergiert und ob die Belohnungsfunktion den Lernprozess effektiv steuert.
Nachverfolgung des Jobstatus
Sie können Ihren RFT-Jobstatus während der Validierungs- und Schulungsphasen in der Amazon Bedrock-Konsole überwachen.
Indikatoren für den Abschluss:
-
Der Jobstatus ändert sich zu Abgeschlossen, wenn die Schulung erfolgreich abgeschlossen wurde
-
ARN für ein benutzerdefiniertes Modell wird für die Bereitstellung verfügbar
-
Trainingsmetriken erreichen Konvergenzschwellenwerte
Trainingsmetriken in Echtzeit
Amazon Bedrock bietet Echtzeitüberwachung während des RFT-Trainings mit visuellen Grafiken, die Trainings- und Validierungsmetriken anzeigen.
Wichtigste Trainingsmetriken
-
Trainingsverlust — Misst, wie gut das Modell aus den Trainingsdaten lernt
-
Statistik der Trainingsbelohnungen — Zeigt die von deinen Belohnungsfunktionen zugewiesenen Prämienwerte an
-
Prämienspanne — Misst den Unterschied zwischen Prämien mit guten und schlechten Antworten
-
Genauigkeit bei Trainings- und Validierungssätzen — Zeigt die Leistung des Modells sowohl bei den Trainings- als auch bei den ausgegebenen Daten
Detaillierte metrische Kategorien
Prämienmetriken —
critic/rewards/meancritic/rewards/max,critic/rewards/min(Prämienverteilung) undval-score/rewards/mean@1(Validierungsprämien)Modellverhalten —
actor/entropy(politische Variation; je höher, desto eher explorativ)Gesundheit der Ausbildung —
actor/pg_loss(Verlust des politischen Gradienten),actor/pg_clipfrac(Häufigkeit abgeschnittener Aktualisierungen) undactor/grad_norm(Gradientengröße)Antwortmerkmale —
prompt_length/mean,prompt_length/max,prompt_length/min(Eingabe-Token-Statistiken),,response_length/meanresponse_length/max,response_length/min(Output-Token-Statistiken) undresponse/aborted_ratio(unvollständige Generierungsrate; 0 steht für „Alles abgeschlossen“)Leistung —
perf/throughput(Trainingsdurchsatz),perf/time_per_step(Zeit pro Trainingsschritt) undtiming_per_token_ms/*(Verarbeitungszeiten pro Token)Ressourcennutzung —
perf/max_memory_allocated_gb,perf/max_memory_reserved_gb(GPU-Speicher) undperf/cpu_memory_used_gb(CPU-Speicher)
Visualisierung des Trainingsfortschritts
Die Konsole zeigt interaktive Grafiken an, die im Verlauf Ihres RFT-Jobs in Echtzeit aktualisiert werden. Diese Visualisierungen können Ihnen helfen:
-
Verfolgen Sie die Konvergenz in Richtung optimaler Leistung
-
Identifizieren Sie frühzeitig potenzielle Schulungsprobleme
-
Ermitteln Sie optimale Haltepunkte
-
Vergleichen Sie die Leistung verschiedener Epochen
Inferenz einrichten
Stellen Sie nach Abschluss des Jobs das RFT-Modell für On-Demand-Inferenzen bereit oder verwenden Sie Provisioned Throughput für eine konsistente Leistung. Informationen zum Einrichten von Inferenzen finden Sie unter. Einrichten von Inferenz für ein benutzerdefiniertes Modell
Verwenden Sie Test in Playground, um die Antworten mit dem Basismodell auszuwerten und zu vergleichen. Informationen zur Bewertung Ihres fertigen RFT-Modells finden Sie unterEvaluieren Sie Ihr RFT-Modell.