Fortsetzung des Vortrainings und der Trainingsmitte - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fortsetzung des Vortrainings und der Trainingsmitte

Anmerkung

Eine ausführliche Dokumentation wird nach dem Abonnieren zur Verfügung gestellt

Nova Forge CPT bietet erweiterte Funktionen, die über das Standard-CPT hinausgehen, darunter den Zugriff auf zwischengeschaltete Checkpoints und die Datenmischung mit dem Nova-Vortrainingskorpus. Diese Funktionen ermöglichen eine effizientere Domänenanpassung und eine bessere Erhaltung der allgemeinen Fähigkeiten des Modells.

Was sind Zwischenkontrollpunkte und warum werden sie benötigt?

Zwischenprüfpunkte sind Schnappschüsse des Amazon Nova-Modells, die in verschiedenen Phasen der Vorschulung gespeichert wurden, bevor das Modell seinen endgültigen produktionsreifen Zustand erreicht. Während der Modellentwicklung durchläuft Amazon Nova mehrere Schulungsphasen: anfängliches Vortraining mit konstanter Lernrate, Erhöhung der Lernrate, Schulung zur Kontexterweiterung und schließlich Schulung zur Ausrichtung und Sicherheit nach Anweisungen. Bei CPT sind zwischengeschaltete Checkpoints oft dem finalen Prod-Checkpoint vorzuziehen, da sie plastischer und empfänglicher für Domainanpassungen sind. Der Prod-Checkpoint wurde einem umfassenden Angleichungs- und Sicherheitstraining unterzogen, bei dem die Anweisungen befolgt wurden. Dadurch wurde das Modell zwar für den allgemeinen Gebrauch in Konversationen optimiert, es ist jedoch möglicherweise resistent gegen das Erlernen neuer domänenspezifischer Muster während der CPT. Im Gegensatz dazu behalten Checkpoints, die nur teilweise oder vollständig vortrainierten Text enthalten, die Merkmale des Modells vor dem Training bei. Sie wurden nicht stark auf bestimmte Verhaltensweisen ausgerichtet, was sie zu effizienteren Ausgangspunkten für die Domänenanpassung macht. Bei der Durchführung umfangreicher CPT (>10B-Token) führt der Start von zwischengeschalteten Checkpoints in der Regel zu einer schnelleren Konvergenz, einer besseren Trainingsstabilität und einem effektiveren Erwerb von Fachwissen. Für CPT in kleinem Maßstab (<10 B-Token) oder wenn die Fähigkeit zur Befolgung von Anweisungen beibehalten werden muss, ist der Prod-Checkpoint jedoch möglicherweise besser geeignet, da er eine Domänenanpassung ermöglicht und gleichzeitig die Konversationsfähigkeit des Modells beibehält.

Für CPT sind mehrere Zwischenprüfpunkte erforderlich, da sie unterschiedliche Ebenen der Modellplastizität bieten, die beeinflussen, wie effizient das Modell neues Domänenwissen aufnehmen kann. Der letzte Prod-Checkpoint wurde einem umfassenden Angleichungs- und Sicherheitstraining unterzogen. Dadurch wurde er für allgemeine Konversationszwecke optimiert, ist aber resistent gegen das Erlernen neuer domänenspezifischer Muster. Mit anderen Worten, er wurde nach dem Training noch weiter verschärft. Im Gegensatz dazu haben frühere Checkpoints die Merkmale des Modells vor dem Training beibehalten und waren nicht stark auf bestimmte Verhaltensweisen ausgerichtet, wodurch sie plastischer und empfänglicher für Domänenanpassungen wurden.

Um die beste Trainingseffizienz zu erreichen, sind mehrere Zwischenkontrollpunkte vorgesehen.

Welche Checkpoints sind verfügbar?

Nova 1.0

Die Amazon Nova 1.0-Familie umfasst drei Modelle (Micro, Lite, Pro) und für jedes Modell sind drei Checkpoints verfügbar.

  • VORTRAINIERT — [nova-<micro/lite/pro>/pretraining-text-partial]: Dies ist der Checkpoint nach der Phase der Amazon Nova-Vorschulung mit konstanter Lernrate, in der das Modell mit Billionen von Text-Token trainiert wird.

  • MID-TRAINED — [nova-<micro/lite/pro>/pretraining-text-full]: Dies ist der reine Text-Checkpoint, nachdem alle Phasen der Amazon Nova-Schulung vor und während der Schulung mit Billionen von Text-Token abgeschlossen sind. Verwenden Sie diese, wenn das Modell speziell keine multimodalen Daten hätte erfassen sollen.

  • MID-TRAINED — [nova-<lite/pro>/pretraining-mm-full]: Dies ist der Checkpoint, nachdem alle Phasen der Amazon Nova-Schulung vor und während des Trainings, einschließlich multimodaler Daten, mit Billionen von Tokens verarbeitet wurden.

  • POST-TRAINING — [nova-<micro/lite/pro>/prod]: Dies ist der vollständig abgestimmte letzte Checkpoint des Modells, das alle Schritte vor und nach dem Training durchlaufen hat.

Nova 2.0

Es gibt drei Amazon Nova Lite 2.0-Checkpoints.

  • VORTRAINIERT — [nova-lite-2/pretraining-text-RD]: Dies ist der Checkpoint nach der konstanten Lernrate und den Ramp-Down-Phasen der Amazon Nova-Vorschulung, bei der das Modell mit Billionen von Tokens trainiert wird.

  • MITTELTRAINIERT — [nova-lite-2/pretraining-text-CE]: Dieser Checkpoint ermöglicht die Einführung von Zwischenmengen unstrukturierter Daten mit einer konservativeren Lernrate als vor dem Training, wodurch domänenspezifisches Wissen aufgenommen und gleichzeitig katastrophales Vergessen vermieden wird.

  • POST-TRAINED — [nova-lite-2/prod]: Dies ist der vollständig abgestimmte letzte Prüfpunkt des Modells, das alle zugehörigen Schritte und Schritte nach der Schulung durchlaufen hat.

In der folgenden Tabelle werden die verschiedenen Bedingungen für die Dauer des Trainings vor und während des Trainings näher erläutert.

Datentyp

Durchführen

Mit Checkpoint

Umfangreiche unstrukturierte Domain-Rohdaten (Dokumente, Protokolle, Artikel, Code usw.)

Fortsetzung der Vorschulung

Vortrainiert

Umfangreiche unstrukturierte Domain-Rohdaten (Dokumente, Protokolle, Artikel, Code usw.)

Mitten im Training

Vortrainiert

Kleinere Mengen unstrukturierter Rohdaten. Spuren strukturierter Argumentationen/CoT-Daten

Mitten im Training

Mitten trainiert

Strukturierte Demonstrationen (hochwertige Input-Output-Paare, kuratierte Aufgabenanweisungen, Multi-Turn-Dialoge)

Vollständige Feinabstimmung

Mittelmäßig trainiert

Strukturierte Demonstrationen (hochwertige Input-Output-Paare, kuratierte Aufgabenanweisungen, Multi-Turn-Dialoge)

Effiziente Feinabstimmung der Parameter

Nach dem Training

Welcher Checkpoint soll verwendet werden?

Checkpoints mit nur teilweise vortrainiertem Text und vollständig vortrainiertem Nur-Text-Checkpoint laufen in der Regel schneller zusammen und erfordern weniger Trainingsschritte für die Domänenanpassung. Sie verfügen jedoch nicht über eine Anpassung der Anweisungen und müssten nach dem Training weitere Schritte durchlaufen, um nützliche Aufgaben ausführen und Anweisungen befolgen zu können. Der GA-Checkpoint erfordert möglicherweise mehr Anpassungsschritte, bietet jedoch einen sichereren Ausgangspunkt für Experimente in kleinem Maßstab und bietet auch nach der CPT-Schulung einige seiner Funktionen nach dem Training.

Im Allgemeinen sollten Sie bei großen Trainingsdatensätzen (>10B-Token) mit Checkpoints beginnen, die nur teilweise oder nur vollständig vortrainierten Text enthalten, um ein effizienteres und stabileres Training zu erreichen, da die Wissensbasis des Modells erheblich verändert wird. Verwenden Sie bei kleinen Datensätzen (<10 B-Tokens) den GA-Checkpoint, um die Funktionen zur Befolgung von Anweisungen beizubehalten und sich gleichzeitig an die Domäne anzupassen.

Wie verwendet man das Mischen von Daten für 1.0- oder 2.0-Modelle?

Bei der Durchführung von CPT mit neuen Domänendaten ist es äußerst vorteilhaft, die neuen Daten mit einigen der Daten zu kombinieren, die zuvor in der Vortrainingsphase des Modells verwendet wurden. Durch das Mischen alter Daten mit neuen Domänendaten werden zwei Probleme gelöst:

  • Kontrolle vergessen: Verhindert katastrophales Vergessen, indem vorhandene Fähigkeiten und Kenntnisse über das Modell erhalten bleiben. Ohne Datenmischung führt ein Training ausschließlich mit eng begrenzten Domänendaten dazu, dass das Modell allgemeine Funktionen überschreibt. Beispielsweise kann ein Modell, das nur anhand von Rechtsdokumenten trainiert wurde, seine Fähigkeit zum Programmieren oder Rechnen verlieren. Durch das Mischen der Datensätze für allgemeine Bereiche bleiben diese allgemeinen Fähigkeiten erhalten, während gleichzeitig das neue Fachgebiet erworben wird.

  • Optimierungsstabilität: Die Stabilität des Trainings wird aufrechterhalten, indem die internen Repräsentationen des Modells verankert werden. Während der CPT werden die erlernten Merkmale des Modells modifiziert, und die Datenmischung sorgt für Gradienten aus verschiedenen Quellen, die für eine reibungslose Anpassung sorgen. Ohne sie kann das Training mit engen Verteilungen zu Instabilität der Gradienten führen, sodass sich die Repräsentationen des Modells zu drastisch verschieben, was zu Trainingsdivergenz, Verlustspitzen oder zum Zusammenbruch vorhandener Fähigkeiten führt. Das ist der Kompromiss zwischen Stabilität und Plastizität: Das Modell sollte plastisch genug sein, um neues Fachwissen zu erlernen, aber stabil genug, um das, was es bereits weiß, nicht kaputt zu machen.

Funktionen zum Mischen von Daten in Nova CPT

Der Zugriff auf Amazon Nova-Daten und Checkpoints vor dem Training ist eines der Kernangebote der Amazon Nova CPT-Anpassung. Die CPT-Anpassung von Amazon Nova ermöglicht das einfache Mischen von Domaindaten mit dem Vortrainingskorpus von Amazon Nova. Darüber hinaus kann das Stichprobenverhältnis der spezifischen Amazon Nova-Datenkategorien (z. B. Code, Mathematik, Argumentation usw.) geändert und ihre Proportionen so gesteuert werden, dass sie die Domaindaten ergänzen. Dies ermöglicht die Stärkung der Funktionen, die auf den Anwendungsfall abgestimmt sind, und gleichzeitig das Modell an die spezifische Domäne anzupassen.

Finden des optimalen Mischungsverhältnisses

Das optimale Verhältnis von Amazon Nova-Daten zu Domaindaten hängt von der Domäne, Komplexität, Größe, Qualität und der Bedeutung der Aufrechterhaltung allgemeiner Funktionen des Datensatzes ab. Dieses Verhältnis muss durch Experimente herausgefunden werden. Ein Versuchsrahmen, um zu entscheiden, wie viele Amazon Nova-Daten gemischt werden sollen, sieht wie folgt aus.

Wählen Sie eine repräsentative Teilmenge von Domänendaten (z. B. 5B-Token) aus und halten Sie diese bei allen Versuchsläufen konstant.

Führen Sie kleine CPT-Experimente durch, bei denen nur die Menge der eingemischten Amazon Nova-Daten variiert wird:

  • Keine Vermischung: 100% Domäne → Nur 5B-Domäne (insgesamt 5B)

  • Lichtmischung: 90% Domäne → 5B-Domäne + ~0,56 B Amazon Nova (insgesamt ~5,56 B)

  • Mittlere Mischung: 70% Domäne → 5B-Domäne + ~2,14 B Amazon Nova (insgesamt ~7,14 B)

  • Starke Mischung: 50% Domäne → 5B-Domäne + 5B Amazon Nova (insgesamt 10B)

Bewerten Sie jeden Checkpoint anhand von Domain-Benchmarks und allgemeinen Domain-Benchmarks. Evaluieren Sie auch den Startkontrollpunkt (Amazon Nova-Checkpoint vor jedem Training).

  • Bleibt die Leistung der Kundendomäne bei allen Durchläufen ungefähr konstant? Normalerweise sollte dies der Fall sein, da bei jedem Lauf dieselbe Anzahl von Domain-Tokens verwendet wurde. Wenn sich die Domain-Performance bei stärkerer Vermischung verbessert, bieten Amazon Nova-Daten eine nützliche Regularisierung.

  • Verbessern sich die allgemeinen Benchmark-Werte, wenn die Mischung zunimmt?

    • Das erwartete Verhalten ist, dass sich die allgemeinen Funktionen monoton verbessern sollten, wenn mehr Amazon Nova-Daten hinzugefügt werden.

    • Messen Sie mehrere allgemeine Benchmarks: MMLU (Allgemeinwissen), HumanEval (Kodierung), GSM8 K (Mathematik) oder spezifische Benchmarks von Interesse.

  • Wählen Sie das Mischungsverhältnis, das die Domänenleistung beibehält und gleichzeitig akzeptable allgemeine Funktionen für die jeweiligen Anwendungsfälle bietet. Berücksichtigen Sie die zusätzlichen Kosten für Schulungen, wenn mehr Daten gemischt werden.

Sobald das optimale Mischungsverhältnis ermittelt wurde, führen Sie CPT in voller Größe aus und verwenden dabei den vollständigen Domänendatensatz mit dem ausgewählten Mischungsverhältnis.

Einschränkungen

Das aktuelle CPT unterstützt nur Textdaten und keine multimodalen Kundendatensätze.