Metriken für die Feinabstimmung großer Sprachmodelle in Autopilot
Im folgenden Abschnitt werden die Metriken beschrieben, anhand derer Sie Ihre optimierten großen Sprachmodelle (LLMs) besser verstehen können. Mit Ihrem Datensatz optimiert Autopilot direkt ein Ziel-LLM, um eine standardmäßige Zielmetrik, den Cross-Entropie-Verlust, zu verbessern.
Der Cross-Entropie-Verlust ist eine weit verbreitete Metrik, um die Unähnlichkeit zwischen der vorhergesagten Wahrscheinlichkeitsverteilung und der tatsächlichen Wortverteilung in den Trainingsdaten zu beurteilen. Durch die Minimierung des Cross-Entropie-Verlusts lernt das Modell, genauere und kontextuell relevantere Vorhersagen zu treffen, insbesondere bei Aufgaben im Zusammenhang mit der Textgenerierung.
Nach der Optimierung eines LLM können Sie die Qualität des generierten Textes anhand einer Reihe von ROUGE-Scores bewerten. Darüber hinaus können Sie im Rahmen des Bewertungsprozesses die Perplexitäts- und die Cross-Entropie-Trainings- und Validierungsverluste analysieren.
-
Der Verlust an Perplexität gibt an, wie gut das Modell das nächste Wort in einer Textsequenz vorhersagen kann. Niedrigere Werte bedeuten ein besseres Verständnis der Sprache und des Kontextes.
-
Bei der Recall-Oriented Understudy for Gisting Evaluation (ROUGE) handelt es sich um eine Reihe von Metriken, die im Bereich der natürlichen Sprachverarbeitung (NLP) und des Machine Learning verwendet werden, um die Qualität von maschinell generiertem Text wie Textzusammenfassung oder Textgenerierung zu bewerten. Dabei werden in erster Linie die Ähnlichkeiten zwischen dem generierten Text und dem (von Menschen geschriebenen) Ground-Truth-Referenztext eines Validierungsdatensatzes bewertet. ROUGE-Maßnahmen dienen der Bewertung verschiedener Aspekte der Textähnlichkeit, einschließlich der Präzision und des Erinnerungsvermögens von N-Grammen (zusammenhängende Wortfolgen) in den vom System generierten Texten und Referenztexten. Ziel ist es zu beurteilen, wie gut ein Modell die im Referenztext enthaltenen Informationen erfasst.
Abhängig von der Art der verwendeten N-Gramme und den spezifischen Aspekten der zu bewertenden Textqualität gibt es verschiedene Varianten der ROUGE-Metriken.
Die folgende Liste enthält den Namen und die Beschreibung der ROUGE-Metriken, die nach der Feinabstimmung großer Sprachmodelle in Autopilot verfügbar sind.
ROUGE-1,ROUGE-2-
ROUGE-N, die primäre ROUGE-Metrik, misst die Überlappung von N-Grammen zwischen den vom System generierten Texten und den Referenztexten. ROUGE-N kann an verschiedene Werte von
n(hier1oder2) angepasst werden, um zu bewerten, wie gut der vom System generierte Text die N-Gramme aus dem Referenztext erfasst. ROUGE-L-
ROUGE-L (ROUGE-Longest Common Subsequence) berechnet die längste gemeinsame Teilsequenz zwischen dem vom System generierten Text und dem Referenztext. Diese Variante berücksichtigt zusätzlich zur inhaltlichen Überschneidung auch die Wortreihenfolge.
ROUGE-L-Sum-
ROUGE-L-SUM (Longest Common Subsequence for Summarization) ist für die Evaluierung von Textzusammenfassungssystemen konzipiert. Es konzentriert sich auf die Messung der längsten gemeinsamen Teilsequenz zwischen der maschinell generierten Zusammenfassung und der Referenzzusammenfassung. ROUGE-L-SUM berücksichtigt die Reihenfolge der Wörter im Text, was bei der Textzusammenfassung wichtig ist.