Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Personalisierung von Amazon Nova bei SageMaker Schulungsjobs
Amazon SageMaker Training Jobs ist eine Umgebung, in der Sie Modelle für maschinelles Lernen in großem Maßstab trainieren können. Sie stellt Rechenressourcen automatisch bereit und skaliert sie, lädt Trainingsdaten aus Quellen wie Amazon S3, führt Ihren Trainingscode aus und speichert die resultierenden Modellartefakte.
Der Zweck des Trainings besteht darin, das Amazon-Nova-Basismodell anhand Ihrer geschützten Daten anzupassen. Der Trainingsprozess umfasst in der Regel Schritte zur Vorbereitung Ihrer Daten, zur Auswahl eines Rezepts, zur Änderung der Konfigurationsparameter in YAML-Dateien und zur Einreichung eines Schulungsjobs. Der Trainingsprozess gibt den Checkpoint für das trainierte Modell in einem serviceverwalteten Amazon-S3-Bucket aus. Sie können den Speicherort dieses Checkpoints für Bewertungsjobs verwenden. Nova-Anpassungen für SageMaker Schulungsjobs speichern Modellartefakte in einem serviceverwalteten Amazon S3 S3-Bucket. Artefakte im vom Service verwalteten Bucket werden mit SageMaker KMS-Schlüsseln verschlüsselt, die vom Service verwaltet werden. Serviceverwaltete Amazon-S3-Buckets unterstützen derzeit keine Datenverschlüsselung mit kundenverwalteten KMS-Schlüsseln.
-Übersicht
Dieser Abschnitt bietet einen Überblick über Anpassungstechniken und hilft Ihnen bei der Auswahl des besten Ansatzes für Ihre Bedürfnisse und verfügbaren Daten.
Zwei Phasen der LLM-Ausbildung
Das Training mit großen Sprachmodellen besteht aus zwei Hauptphasen: vor dem Training und nach dem Training. Während des Trainings vor dem Training verarbeitet das Modell Tokens mit Rohtext und optimiert es für die Vorhersage des nächsten Tokens. Dieser Prozess erstellt einen Mustervervollständiger, der Syntax, Semantik, Fakten und Argumentationsmuster aus dem Internet und kuratiertem Text aufnimmt. Das vortrainierte Modell versteht jedoch Anweisungen, Benutzerziele oder kontextgerechtes Verhalten nicht. Es setzt den Text in dem Stil fort, der zu seiner Schulungsstruktur passt. Ein vorab trainiertes Modell vervollständigt die Anweisungen automatisch, statt sie zu befolgen, erzeugt eine inkonsistente Formatierung und kann unerwünschte Verzerrungen oder unsichere Inhalte aus den Trainingsdaten wiedergeben. Vor dem Training werden allgemeine Kompetenzen vermittelt, nicht die Nützlichkeit der Aufgaben.
Nach dem Training wird der Mustervervollständiger zu einem nützlichen Assistenten. Sie führen mehrere Runden Supervised Fine-Tuning (SFT) durch, um dem Modell beizubringen, Anweisungen zu befolgen, Schemata und Richtlinien einzuhalten, Tools aufzurufen und zuverlässige Ergebnisse zu erzielen, indem hochwertige Demonstrationen nachgeahmt werden. Durch diese Ausrichtung lernt das Modell, auf Eingabeaufforderungen als Aufgaben und nicht als Text zu reagieren, um fortzufahren. Anschließend wenden Sie Reinforcement Fine-Tuning (RFT) an, um das Verhalten mithilfe von messbarem Feedback (z. B. Prüfer oder einem LLM-as-a-judge) zu optimieren und dabei Kompromisse wie Genauigkeit und Kürze, Sicherheit und Umfang oder mehrstufiges Denken unter Berücksichtigung von Einschränkungen abzuwägen. In der Praxis wechseln Sie SFT und RFT zyklisch ab, um aus dem vorab trainierten Modell ein zuverlässiges, richtliniengerechtes System zu machen, das komplexe Aufgaben konsistent ausführt.
Wählen Sie den richtigen Anpassungsansatz
In diesem Abschnitt werden wir Strategien zur Anpassung nach dem Training behandeln: RFT und SFT.
Feinabstimmung von Verstärkungen (RFT)
Die Feinabstimmung der Verstärkung verbessert die Modellleistung durch Feedback-Signale — messbare Werte oder Belohnungen, die auf die Qualität der Antworten hinweisen — und nicht durch direkte Überwachung mit exakt richtigen Antworten. Im Gegensatz zur herkömmlichen überwachten Feinabstimmung, die aus Input-Output-Paaren lernt, verwendet RFT Belohnungsfunktionen, um die Modellantworten zu bewerten, und optimiert das Modell iterativ, um diese Belohnungen zu maximieren. Dieser Ansatz eignet sich gut für Aufgaben, bei denen es schwierig ist, den exakt richtigen Output zu definieren, aber Sie können die Qualität der Antworten zuverlässig messen. RFT ermöglicht es Modellen, komplexe Verhaltensweisen und Präferenzen durch Ausprobieren und Feedback zu erlernen, und eignet sich daher ideal für Anwendungen, die eine nuancierte Entscheidungsfindung, kreative Problemlösung oder die Einhaltung bestimmter Qualitätskriterien erfordern, die Sie programmgesteuert bewerten können. Die Beantwortung komplexer Rechtsfragen ist beispielsweise ein idealer Anwendungsfall für RFT, da Sie dem Modell beibringen möchten, besser zu argumentieren, um Fragen genauer zu beantworten.
Funktionsweise
Bei der Feinabstimmung von Verstärkungen gehen Sie von einer auf Anweisungen abgestimmten Ausgangsbasis aus und behandeln jede Aufforderung wie ein kleines Turnier. Für eine bestimmte Eingabe nehmen Sie eine Stichprobe von einer Handvoll Kandidatenantworten aus dem Modell, bewerten jede einzelne mit der Belohnungsfunktion und ordnen sie dann innerhalb dieser Gruppe ein. Durch den Aktualisierungsschritt wird das Modell so angepasst, dass beim nächsten Mal die Wahrscheinlichkeit von Kandidaten mit einer höheren Punktzahl und die Wahrscheinlichkeit von Kandidaten mit niedrigerer Punktzahl geringer wird, während eine stay-close-to-baseline Einschränkung verhindert, dass das Verhalten abdriftet, ausführlich oder ausbeuterisch wird. Sie wiederholen diesen Vorgang bei vielen Eingabeaufforderungen, aktualisieren schwierige Fälle, verschärfen die Rubriken für Prüfer oder Richter, wenn Sie Exploits sehen, und verfolgen kontinuierlich die Aufgabenmetriken.
Wann sollte RFT verwendet werden
Aufgaben, die am meisten von RFT profitieren, haben mehrere Merkmale gemeinsam. Sie haben messbare Erfolgssignale, auch wenn es schwierig ist, eine einzelne korrekte Ausgabe zu spezifizieren. Sie geben teilweise Anerkennung oder benotete Qualität, sodass Sie innerhalb einer Aufforderung oder mithilfe einer Belohnungsfunktion bessere oder schlechtere Antworten bewerten können. Sie beinhalten mehrere Ziele, die gegeneinander abgewogen werden müssen (z. B. Genauigkeit und Kürze, Klarheit, Sicherheit oder Kosten). Sie erfordern die Einhaltung ausdrücklicher Einschränkungen, die Sie programmgesteuert überprüfen können. Sie funktionieren in toolgestützten oder umgebungsbasierten Umgebungen, in denen Ergebnisse beobachtbar sind (Erfolg oder Misserfolg, Latenz, Ressourcennutzung). Sie treten in Ländern auf, in denen das Sammeln von Goldzielen teuer ist, aber automatisiertes oder rubrikbasiertes Feedback in Hülle und Fülle vorhanden ist. RFT funktioniert am besten, wenn Sie Qualität in einen zuverlässigen Skalar oder ein zuverlässiges Ranking umwandeln können und möchten, dass das Modell Verhaltensweisen mit höheren Punktzahlen bevorzugt verstärkt, ohne dass erschöpfende, beschriftete Ziele erforderlich sind.
Ziehen Sie andere Methoden in Betracht, wenn:
-
Sie haben zahlreiche, zuverlässig beschriftete Eingangs-/Ausgangspaare — verwenden Sie SFT
-
Die größte Lücke ist Wissen oder Fachjargon — nutzen Sie Retrieval-Augmented Generation (RAG)
-
Dein Belohnungssignal ist verrauscht oder unzuverlässig und du kannst es nicht mit besseren Rubriken oder Checkern beheben. Stabilisiere das zuerst, bevor du RFT
Wann sollte RFT nicht verwendet werden
Vermeiden Sie RFT in diesen Situationen:
-
Sie können kostengünstig zuverlässige, beschriftete Eingangs-/Ausgangspaare herstellen (SFT ist einfacher, billiger und stabiler)
-
Die Lücke ist eher Wissen oder Fachjargon als Verhalten (verwenden Sie RAG)
-
Ihr Belohnungssignal ist laut, spärlich, einfach zu spielen oder teuer oder langsam zu berechnen (korrigieren Sie zuerst den Evaluator)
-
Die Ausgangsleistung liegt nahe Null (zuerst mit SFT starten, bevor die Einstellungen optimiert werden)
-
Die Aufgabe hat deterministische Schemata, eine strenge Formatierung oder eine einzige richtige Antwort (SFT oder regelbasierte Validierung funktioniert besser)
-
Enge Latenz- oder Kostenbudgets können die zusätzlichen Probenahme- oder Explorationskosten, die RFT erfordert, nicht auffangen
-
Sicherheits- oder politische Einschränkungen sind in der Prämie nicht klar spezifiziert und durchsetzbar
Wenn Sie auf „die richtige Antwort“ hinweisen können, verwenden Sie SFT. Wenn Sie neues Wissen benötigen, verwenden Sie RAG. Verwenden Sie RFT erst, wenn Sie eine solide Ausgangsbasis und eine robuste, schnelle hard-to-exploit Belohnungsfunktion haben.
Überwachte Optimierung (SFT)
Die überwachte Feinabstimmung trainiert das LLM anhand eines Datensatzes von von Menschen beschrifteter Eingabe-Ausgabe-Paare für Ihre Aufgabe. Sie geben Beispiele für Eingabeaufforderungen (Fragen, Anweisungen usw.) mit den richtigen oder gewünschten Antworten und setzen das Training des Modells anhand dieser Beispiele fort. Das Modell passt seine Gewichtungen an, um einen überwachten Verlust zu minimieren (in der Regel eine Kreuzentropie zwischen seinen Vorhersagen und den Ziel-Output-Token). Dabei handelt es sich um dasselbe Training, das bei den meisten Aufgaben des überwachten maschinellen Lernens zur Spezialisierung eines LLM verwendet wird.
SFT verändert Verhalten, nicht Wissen. Es bringt dem Modell keine neuen Fakten oder Fachjargon bei, die es vor dem Training nicht gesehen hat. Es bringt dem Modell bei, wie man antwortet, nicht, was es wissen soll. Wenn Sie neues Fachwissen benötigen (z. B. interne Terminologie), verwenden Sie Retrieval-Augmented Generation (RAG), um diesen Kontext zum Zeitpunkt der Inferenz bereitzustellen. SFT fügt dann das gewünschte Verhalten bei der Befolgung von Anweisungen hinzu.
Funktionsweise
SFT optimiert LLM, indem es den durchschnittlichen Kreuzentropieverlust bei Antwort-Token minimiert, Prompt-Token als Kontext behandelt und sie vor dem Verlust maskiert. Das Modell verinnerlicht Ihren Zielstil, Ihre Struktur und Ihre Entscheidungsregeln und lernt, für jede Aufforderung die richtige Antwort zu generieren. Um Dokumente beispielsweise in benutzerdefinierte Kategorien zu klassifizieren, optimieren Sie das Modell mithilfe von Eingabeaufforderungen (dem Dokumenttext) und beschrifteten Vervollständigungen (den Kategoriebeschriftungen). Sie trainieren mit diesen Paaren, bis das Modell für jede Aufforderung mit hoher Wahrscheinlichkeit die richtige Bezeichnung ausgibt.
Sie können SFT mit nur ein paar hundert Beispielen durchführen und bis zu einigen hunderttausend skalieren. SFT-Proben müssen von hoher Qualität sein und direkt auf das gewünschte Modellverhalten abgestimmt sein.
Wann sollte SFT verwendet werden
Verwenden Sie SFT, wenn Sie eine klar definierte Aufgabe mit eindeutig gewünschten Ergebnissen haben. Wenn Sie explizit angeben können, dass „Bei gegebener X-Eingabe ist die richtige Ausgabe Y“ und Beispiele für solche Zuordnungen sammeln können, ist die überwachte Feinabstimmung eine gute Wahl. SFT zeichnet sich in diesen Szenarien aus:
-
Strukturierte oder komplexe Klassifizierungsaufgaben — Klassifizieren Sie interne Dokumente oder Verträge in viele benutzerdefinierte Kategorien. Mit SFT lernt das Modell diese spezifischen Kategorien besser kennen, als wenn es nur Eingabeaufforderungen erfordert.
-
Beantwortung von Fragen oder Transformationsaufgaben mit bekannten Antworten — Optimieren Sie ein Modell, um Fragen aus der Wissensdatenbank eines Unternehmens zu beantworten, oder konvertieren Sie Daten zwischen Formaten, bei denen jede Eingabe eine richtige Antwort hat.
-
Einheitlichkeit bei Formatierung und Stil — Trainieren Sie das Modell so, dass es immer in einem bestimmten Format oder Ton reagiert, indem Sie anhand von Beispielen für das richtige Format oder den richtigen Ton Feinabstimmungen vornehmen. Wenn das Modell beispielsweise anhand von Paaren zwischen Aufforderung und Antwort trainiert wird, die eine bestimmte Markensprache zum Ausdruck bringen, wird dem Modell beigebracht, Outputs in diesem Stil zu generieren. Verhalten, das Anweisungen befolgt, wird häufig zunächst durch SFT anhand von kuratierten Beispielen für gutes Verhalten von Assistenten vermittelt.
SFT ist der direkteste Weg, einem LLM eine neue Fähigkeit oder ein neues Verhalten beizubringen, wenn Sie angeben können, wie das richtige Verhalten aussieht. Es nutzt das bestehende Sprachverständnis des Modells und konzentriert es auf Ihre Aufgabe. Verwenden Sie SFT, wenn Sie möchten, dass das Modell eine bestimmte Aufgabe erfüllt und Sie einen Datensatz mit Beispielen haben oder erstellen können.
Verwenden Sie SFT, wenn Sie qualitativ hochwertige Eingabeaufforderungs- und Antwortpaare zusammenstellen können, die das gewünschte Verhalten genau widerspiegeln. Es eignet sich für Aufgaben mit klaren Zielen oder deterministischen Formaten wie Schemas, Funktions- oder Toolaufrufen sowie für strukturierte Antworten, bei denen Nachahmung ein geeignetes Trainingssignal ist. Das Ziel ist die Verhaltensformung: Dem Modell beizubringen, Eingabeaufforderungen als Aufgaben zu behandeln, Anweisungen zu befolgen, Ton- und Ablehnungsrichtlinien anzunehmen und eine einheitliche Formatierung zu gewährleisten. Planen Sie mindestens Hunderte von Demonstrationen ein, bei denen Datenqualität, Konsistenz und Deduplizierung wichtiger sind als das reine Volumen. Verwenden Sie für ein unkompliziertes, kosteneffizientes Update parametereffiziente Methoden wie Low-Rank Adaptation, um kleine Adapter zu trainieren und dabei den Großteil des Backbones unangetastet zu lassen.
Wann sollte SFT nicht verwendet werden
Verwenden Sie SFT nicht, wenn die Lücke eher im Wissen als im Verhalten besteht. Es vermittelt dem Modell keine neuen Fakten, Fachjargon oder aktuelle Ereignisse. Verwenden Sie in diesen Fällen die Generierung mit erweitertem Abruf, um externes Wissen als Inferenz heranzuziehen. Vermeiden Sie SFT, wenn Sie die Qualität messen können, aber keine einzige richtige Antwort angeben können. Verwenden Sie die Feinabstimmung der Verstärkung mit überprüfbaren Belohnungen oder einer, um diese Prämien LLM-as-a-judge direkt zu optimieren. Wenn sich Ihre Bedürfnisse oder Inhalte häufig ändern, verlassen Sie sich auf den Abruf und die Verwendung von Tools, anstatt das Modell erneut zu trainieren.