Datenaufbereitung Retrieval Augmented Generation Feinabstimmung Bewertungsdatensatz Feedback-Schleifen

Datenlebenszyklus in generativer KI

Die Implementierung generativer KI in einem Unternehmen beinhaltet einen Datenlebenszyklus, der dem traditionellen Lebenszyklus entspricht. AI/ML In jeder Phase gibt es jedoch besondere Überlegungen. Zu den wichtigsten Phasen gehören die Datenaufbereitung, die Integration in Modell-Workflows (wie Abruf oder Feinabstimmung), die Erfassung von Feedback und laufende Aktualisierungen. In diesem Abschnitt werden diese miteinander verbundenen Phasen des Datenlebenszyklus untersucht und die wesentlichen Prozesse, Herausforderungen und bewährten Verfahren beschrieben, die Unternehmen bei der Entwicklung und Bereitstellung generativer KI-Lösungen berücksichtigen müssen.

In diesem Abschnitt werden folgende Themen behandelt:

Datenaufbereitung und Datenbereinigung für die Vorbereitung auf das Training
Retrieval Augmented Generation
Feinabstimmung und spezielle Schulungen
Bewertungsdatensatz
Benutzergenerierte Daten und Feedback-Schleifen

Datenaufbereitung und Datenbereinigung für die Vorbereitung auf das Training

Müll rein, Müll raus ist das Konzept, dass minderwertige Inputs zu ähnlich minderwertigen Outputs führen. Wie bei jedem KI-Projekt ist die Datenqualität ein make-or-break Faktor. Generative KI beginnt oft mit riesigen Datensätzen, aber Volumen allein reicht nicht aus. Sorgfältige Reinigung, Filterung und Vorverarbeitung sind von entscheidender Bedeutung.

In dieser Phase aggregieren Datenteams Rohdaten, wie z. B. große Textkörper oder Bildsammlungen. Anschließend entfernen sie Störungen, Fehler und Verzerrungen. Zum Beispiel könnte die Vorbereitung von Text für ein LLM das Entfernen von Duplikaten, das Löschen sensibler personenbezogener Daten und das Herausfiltern toxischer oder irrelevanter Inhalte beinhalten. Ziel ist es, einen qualitativ hochwertigen Datensatz zu erstellen, der das Wissen oder den Stil, den das Modell erfassen soll, wirklich repräsentiert. Daten können auch normalisiert oder in eine Struktur formatiert werden, die für die Modellaufnahme geeignet ist. Sie können beispielsweise Text tokenisieren, HTML-Tags entfernen oder die Bildauflösung normalisieren.

Bei generativer KI kann diese Vorbereitung aufgrund der Skalierung besonders intensiv sein. Modelle wie Anthropic Claude werden auf Hunderten von Milliarden von Tokens (Wikipedia) trainiert, die aus einer Vielzahl von öffentlich zugänglichen und lizenzierten Datenquellen stammen. Selbst ein geringer Prozentsatz fehlerhafter Daten kann enorme Auswirkungen auf die Ergebnisse haben, einschließlich anstößiger Inhalte oder sachlicher Fehler. Beispielsweise gaben verschiedene LLM-Anbieter an, Inhalte einer Reddit-Community aus ihrem Trainingsdatensatz ausgeschlossen zu haben, weil die Beiträge hauptsächlich aus langen Sequenzen des Buchstabens M bestanden, um das Geräusch einer Mikrowelle nachzuahmen. Diese Beiträge störten das Training und die Leistung der Modelle.

In dieser Phase setzen einige Unternehmen Datenerweiterungen ein, um die Abdeckung bestimmter Szenarien zu verbessern. Datenerweiterung ist der Prozess der Synthese zusätzlicher Trainingsdaten. Weitere Informationen finden Sie unter Datensynthese in diesem Handbuch.

Wenn Sie das Modell anhand der vorbereiteten und vorverarbeiteten Daten trainieren, können Sie Techniken zur Risikominderung einsetzen, um insbesondere Verzerrungen zu vermeiden. Zu den Techniken gehört die Einbettung ethischer Prinzipien in die Architektur des Modells, die als konstitutionelle KI bezeichnet wird. Eine weitere Technik ist das gegnerische Debiasing, bei dem das Modell während des Trainings herausgefordert wird, um fairere Ergebnisse für verschiedene Gruppen durchzusetzen. Schließlich können Sie nach dem Training Anpassungen nach der Bearbeitung vornehmen, um das Modell durch Feinabstimmung zu verfeinern. Dies kann dazu beitragen, alle verbleibenden Verzerrungen zu korrigieren und die allgemeine Fairness zu verbessern.

Retrieval Augmented Generation

Statische ML-Modelle treffen Vorhersagen ausschließlich auf der Grundlage eines festen Trainingssatzes. Viele generative KI-Lösungen für Unternehmen verwenden jedoch Retrieval Augmented Generation (RAG), um das Wissen eines Modells aktuell und relevant zu halten. Bei RAG wird ein LLM mit einem externen Wissensspeicher verbunden, der Unternehmensdokumente, Datenbanken oder andere Datenquellen enthalten kann.

In der Praxis erfordert RAG die Implementierung einer zusätzlichen Datenpipeline. Dies führt zu einem gewissen Grad an Komplexität und umfasst die folgenden aufeinanderfolgenden Schritte:

Aufnahme und Filterung — Sammeln Sie hochwertige, relevante Daten aus verschiedenen Quellen. Implementieren Sie Filtermechanismen, um redundante oder irrelevante Informationen auszuschließen, und stellen Sie sicher, dass der Datensatz für die Domäne der Anwendung relevant ist. Beachten Sie, dass regelmäßige Aktualisierungen und Wartung des Datenrepositorys unerlässlich sind, um die Genauigkeit und Relevanz der Informationen zu gewährleisten.
Analysieren und Extrahieren — Nach der Datenaufnahme sollten die Daten analysiert werden, um aussagekräftige Inhalte zu extrahieren. Verwenden Sie Parser, die verschiedene Datenformate wie HTML, JSON oder Klartext verarbeiten können. Die Parser konvertieren die Rohdaten in strukturierte Formen. Dieser Prozess ermöglicht eine einfachere Datenmanipulation und -analyse in nachfolgenden Phasen.
Chunking-Strategien — Teilen Sie die Daten in überschaubare Teile oder Chunks auf. Dieser Schritt ist für einen effizienten Abruf und eine effiziente Verarbeitung von entscheidender Bedeutung. Zu den Chunking-Strategien gehören unter anderem die folgenden:
- Standardmäßiges, tokenbasiertes Chunking — Teilen Sie Text auf der Grundlage einer bestimmten Anzahl von Tokens in Segmente mit fester Größe auf. Dies ist die grundlegendste Chunking-Strategie, hilft aber dabei, einheitliche Chunk-Längen beizubehalten.
- Hierarchisches Chunking — Organisieren Sie Inhalte in einer Hierarchie (z. B. Kapitel, Abschnitte oder Absätze), um die kontextuellen Beziehungen aufrechtzuerhalten. Diese Strategie verbessert das Verständnis des Modells für die Datenstruktur.
- Semantisches Chunking — Segmentieren Sie Text auf der Grundlage semantischer Kohärenz. Stellen Sie sicher, dass jeder Abschnitt eine vollständige Idee oder ein vollständiges Thema darstellt. Diese Strategie kann die Relevanz der abgerufenen Informationen verbessern.
Auswahl von Einbettungsmodellen — Vektordatenbanken speichern Einbettungen, bei denen es sich um numerische Repräsentationen eines Textstücks handelt, die ihre Bedeutung und ihren Kontext beibehalten. Eine Einbettung ist ein Format, das ein ML-Modell verstehen und vergleichen kann, um eine semantische Suche durchzuführen. Die Wahl des geeigneten Einbettungsmodells ist entscheidend für die Erfassung der semantischen Essenz von Datenblöcken. Wählen Sie Modelle aus, die Ihren domänenspezifischen Anforderungen entsprechen und Einbettungen generieren können, die die Bedeutung des Inhalts genau widerspiegeln. Die Auswahl des besten Einbettungsmodells für Ihren Anwendungsfall kann die Relevanz und die kontextuelle Genauigkeit verbessern.
Indexierungs- und Suchalgorithmen — Indizieren Sie die Einbettungen in einer Vektordatenbank, die für Ähnlichkeitssuchen optimiert ist. Verwenden Sie Suchalgorithmen, die hochdimensionale Daten effizient verarbeiten und das schnelle Abrufen relevanter Informationen unterstützen. Techniken wie die Suche nach dem ungefähren nächsten Nachbarn (ANN) können die Abrufgeschwindigkeit erheblich verbessern, ohne die Genauigkeit zu beeinträchtigen.

RAG-Pipelines sind von Natur aus komplex. Sie erfordern mehrere Phasen, unterschiedliche Integrationsgrade und ein hohes Maß an Fachwissen, um sie effektiv zu gestalten. Bei richtiger Implementierung können sie die Leistung und Genauigkeit einer generativen KI-Lösung erheblich verbessern. Die Wartung dieser Systeme ist jedoch ressourcenintensiv und erfordert eine kontinuierliche Überwachung, Optimierung und Skalierung. Diese Komplexität hat zur Entstehung eines RAGOpsspeziellen Ansatzes für die effiziente Operationalisierung und Verwaltung der RAG-Pipelines geführt, um die langfristige Zuverlässigkeit und Effektivität zu fördern.

Weitere Informationen zu RAG am AWS finden Sie in den folgenden Ressourcen:

Abrufen der Optionen und Architekturen von Augmented Generation unter AWS (AWS Prescriptive Guidance)
Auswahl einer AWS Vektordatenbank für RAG-Anwendungsfälle (Prescriptive Guidance)AWS
Stellen Sie mithilfe AWS von Terraform und Amazon Bedrock einen RAG-Anwendungsfall bereit (AWS Prescriptive Guidance)

Feinabstimmung und spezielle Schulungen

Die Feinabstimmung kann zwei verschiedene Formen annehmen: die Feinabstimmung von Domänen und die Feinabstimmung von Aufgaben. Jede Methode dient einem anderen Zweck bei der Anpassung eines vorab trainierten Modells. Bei der unbeaufsichtigten Feinabstimmung von Domänen wird das Modell anhand eines domänenspezifischen Textes weiter trainiert, damit es die Sprache, Terminologie und den Kontext eines bestimmten Bereichs oder einer Branche besser versteht. Sie könnten beispielsweise ein medienspezifisches LLM anhand einer Sammlung interner Artikel und Fachjargon verfeinern, um den Tonfall und das Fachvokabular des Unternehmens widerzuspiegeln.

Im Gegensatz dazu konzentriert sich die Feinabstimmung von überwachten Aufgaben darauf, dem Modell beizubringen, eine bestimmte Funktion oder ein bestimmtes Ausgabeformat auszuführen. Sie könnten dem System beispielsweise beibringen, Kundenanfragen zu beantworten, Rechtsdokumente zusammenzufassen oder strukturierte Daten zu extrahieren. Dies erfordert in der Regel die Vorbereitung eines beschrifteten Datensatzes, der Beispiele für Eingaben und gewünschte Ausgaben für die Zielaufgabe enthält.

Beide Ansätze erfordern eine sorgfältige Erfassung und Kuratierung von Daten zur Feinabstimmung. Für die Feinabstimmung der Aufgaben werden Datensätze explizit gekennzeichnet. Für die Feinabstimmung von Domänen können Sie unbeschrifteten Text verwenden, um das allgemeine Sprachverständnis im jeweiligen Kontext zu verbessern. Unabhängig vom Ansatz ist die Datenqualität von größter Bedeutung. Saubere, repräsentative und angemessen dimensionierte Datensätze sind unerlässlich, um die Leistung des Modells aufrechtzuerhalten und zu verbessern. In der Regel sind die Datensätze zur Feinabstimmung viel kleiner als die Datensätze, die für das anfängliche Vortraining verwendet wurden, müssen aber sorgfältig ausgewählt werden, um eine effektive Modellanpassung zu gewährleisten.

Eine Alternative zur Feinabstimmung ist die Modelldestillation, eine Technik, bei der ein kleineres, spezialisiertes Modell trainiert wird, um die Leistung eines größeren, allgemeineren Modells nachzubilden. Anstatt ein vorhandenes LLM zu verfeinern, überträgt die Modelldestillation Wissen, indem ein leichtes Modell (der Schüler) anhand von Ergebnissen trainiert wird, die vom ursprünglichen, komplexeren Modell (dem Lehrer) generiert wurden. Dieser Ansatz ist besonders dann von Vorteil, wenn Recheneffizienz im Vordergrund steht, da destillierte Modelle weniger Ressourcen benötigen und gleichzeitig die aufgabenspezifische Leistung beibehalten wird.

Anstatt umfangreiche domänenspezifische Trainingsdaten zu benötigen, stützt sich die Modelldestillation auf synthetische oder von Lehrern generierte Datensätze. Das komplexe Modell liefert hochwertige Beispiele, aus denen das leichte Modell lernen kann. Dies reduziert den Aufwand für die Kuratierung proprietärer Daten, erfordert aber dennoch eine sorgfältige Auswahl verschiedener und unvoreingenommener Schulungsbeispiele, um die Generalisierungsmöglichkeiten aufrechtzuerhalten. Darüber hinaus kann die Destillation dazu beitragen, die mit dem Datenschutz verbundenen Risiken zu minimieren, da Sie das Lightweight-Modell anhand geschützter Daten trainieren können, ohne sensible Datensätze direkt preiszugeben.

Allerdings ist es unwahrscheinlich, dass die meisten Unternehmen eine Feinabstimmung oder Destillation vornehmen, da dies für ihre Anwendungsfälle oft unnötig ist und eine zusätzliche betriebliche und technische Komplexität mit sich bringt. Viele Geschäftsanforderungen können mithilfe vorab trainierter Basismodelle effektiv erfüllt werden, manchmal mit leichten Anpassungen durch schnelles Engineering oder Tools wie RAG. Die Feinabstimmung erfordert erhebliche Investitionen in Bezug auf technische Fähigkeiten, Datenpflege und Modellverwaltung. Dadurch eignet es sich besser für hochspezialisierte oder groß angelegte Unternehmensanwendungen, bei denen ein solcher Aufwand gerechtfertigt ist.

Bewertungsdatensatz

Die Entwicklung einer robusten Datenstrategie ist bei der Erstellung von Bewertungsdatensätzen für generative KI-Lösungen unerlässlich. Diese Bewertungsdatensätze dienen als Benchmarks für die Bewertung der Modellleistung. Sie sollten auf zuverlässigen Ground-Truth-Daten basieren, d. h. Daten, von denen bekannt ist, dass sie korrekt, verifiziert und repräsentativ für reale Ergebnisse sind. Bei Ground-Truth-Daten kann es sich beispielsweise um reale Daten handeln, die Sie einem Schulungs- oder Feinabstimmungsdatensatz vorenthalten. Ground-Truth-Daten können aus verschiedenen Quellen stammen, von denen jede ihre eigenen Herausforderungen mit sich bringt.

Die Generierung synthetischer Daten bietet eine skalierbare Möglichkeit, kontrollierte Datensätze zum Testen bestimmter Modellfunktionen zu erstellen, ohne vertrauliche Informationen preiszugeben. Ihre Wirksamkeit hängt jedoch davon ab, wie genau sie echten Ground-Truth-Verteilungen entspricht.

Alternativ enthalten manuell kuratierte Datensätze, die oft als „Golden Datasets“ bezeichnet werden, streng verifizierte Frage-Antwort-Paare oder beschriftete Beispiele. Diese Datensätze können als hochwertige Ground-Truth-Daten für eine robuste Modellevaluierung dienen. Die Kompilierung dieser Datensätze ist jedoch zeitaufwändig und ressourcenintensiv. Die Einbeziehung von tatsächlichen Kundeninteraktionen als Bewertungsdaten kann die Relevanz und Reichweite von Ground-Truth-Daten weiter erhöhen, allerdings erfordert dies strenge Datenschutzvorkehrungen und die Einhaltung gesetzlicher Vorschriften (wie GDPR und CCPA).

Eine umfassende Datenstrategie sollte diese Ansätze ausbalancieren. Um generative KI-Modelle effektiv zu bewerten, sollten Faktoren wie Datenqualität, Repräsentativität, ethische Überlegungen und die Ausrichtung an den Geschäftszielen berücksichtigt werden. Weitere Informationen finden Sie unter Amazon Bedrock Evaluations.

Benutzergenerierte Daten und Feedback-Schleifen

Sobald ein generatives KI-System eingesetzt ist, beginnt es, Ergebnisse zu produzieren und mit Benutzern zu interagieren. Diese Interaktionen selbst werden zu einer wertvollen Datenquelle. Zu den benutzergenerierten Daten gehören Fragen und Eingabeaufforderungen von Benutzern, die Antworten des Modells und jegliches explizite Feedback, das Benutzer geben (z. B. Bewertungen). Unternehmen sollten dies als Teil des generativen KI-Datenlebenszyklus behandeln und es in Überwachungs- und Verbesserungsprozesse einfließen lassen. Wichtig ist, dass nutzergenerierte Daten in Ihren Ground-Truth-Datensatz integriert werden können. Auf diese Weise können Sie die Eingabeaufforderungen weiter optimieren und die Gesamtleistung Ihrer Anwendung im Laufe der Zeit verbessern. Ein weiterer wichtiger Grund besteht darin, Modellabweichungen und die Leistung im Laufe der Zeit zu kontrollieren. Nach dem Einsatz in der Praxis kann das Modell beginnen, von seiner Trainingsdomäne abzuweichen. Beispiele hierfür sind neue Umgangssprache, die in Abfragen auftaucht, oder Benutzer, die Fragen zu neuen Themen stellen, die in den Trainingsdaten nicht enthalten sind. Durch die Überwachung dieser Live-Daten kann eine Verschiebung der Daten aufgedeckt werden, d. h., die Verteilung der Eingaben verschiebt, wodurch die Modellgenauigkeit möglicherweise beeinträchtigt werden kann.

Um dem entgegenzuwirken, richten Unternehmen Feedback-Schleifen ein, indem sie Benutzerinteraktionen erfassen und das Modell anhand einer aktuellen Stichprobe regelmäßig neu schulen oder verfeinern. Manchmal können Sie das Feedback einfach nutzen, um Eingabeaufforderungen und Abrufdaten anzupassen. Wenn beispielsweise ein interner Chatbot-Assistent ständig Antworten zu einem neu veröffentlichten Produkt halluziniert, sammelt das Team möglicherweise diese fehlgeschlagenen Frage-und-Antwort-Paare und fügt die richtigen Informationen als zusätzliche Schulungs- oder Abrufdaten hinzu.

In einigen Fällen wird Reinforcement-Learning durch menschliches Feedback (RLHF) eingesetzt, um ein LLM in der Phase nach dem Training oder der Feinabstimmung weiter auszurichten. Es hilft dem Modell, Antworten zu finden, die die menschlichen Präferenzen und Werte besser widerspiegeln. Durch Techniken des Reinforcement-Learnings (RL) wird Software darin geschult, Entscheidungen zu treffen, die den Nutzen maximieren und die Ergebnisse genauer machen. RLHF bezieht menschliches Feedback in die Belohnungsfunktion ein, sodass das ML-Modell Aufgaben ausführen kann, die besser auf die menschlichen Ziele, Wünsche und Bedürfnisse abgestimmt sind. Weitere Informationen zur Verwendung von RLHF in Amazon SageMaker AI finden Sie unter Improving Your LLMs with RLHF SageMaker on Amazon im AWS AI-Blog.

Selbst ohne formales RLHF ist ein einfacherer Ansatz die fortlaufende manuelle Überprüfung eines Bruchteils der Modellergebnisse, ähnlich wie bei der Qualitätssicherung. Der Schlüssel liegt darin, dass kontinuierliche Überwachung, Beobachtbarkeit und Lernen in den Prozess integriert sind. Weitere Informationen zum Sammeln und Speichern von menschlichem Feedback aus generativen KI-Anwendungen finden Sie unter Anleitung für Chatbot-Benutzerfeedback und Analysen AWS in der AWS Lösungsbibliothek. AWS

Um Abweichungen zu verhindern oder zu beheben, müssen Unternehmen kontinuierliche Modellaktualisierungen einplanen, die verschiedene Formen annehmen können. Ein Ansatz besteht darin, regelmäßige Feinabstimmungen oder kontinuierliche Vorschulungen einzuplanen. Sie können das Modell beispielsweise monatlich mit den neuesten internen Daten, Supportfällen oder Nachrichtenartikeln aktualisieren. Während einer kontinuierlichen Vorschulung wird ein vorab trainiertes Sprachmodell anhand zusätzlicher Daten weiter trainiert, um seine Leistung zu verbessern, insbesondere in bestimmten Bereichen oder Aufgaben. Bei diesem Prozess wird das Modell neuen, unbeschrifteten Textdaten ausgesetzt, sodass es sein Verständnis verfeinern und sich an neue Informationen anpassen kann, ohne bei Null anfangen zu müssen. Um Sie bei diesem potenziell komplexen Prozess zu unterstützen, ermöglicht Ihnen Amazon Bedrock Feinabstimmungen und kontinuierliche Vorschulungen in einer vollständig sicheren und verwalteten Umgebung. Weitere Informationen finden Sie im News-Blog unter Anpassen von Modellen in Amazon Bedrock mit Ihren eigenen Daten mithilfe von Feinabstimmungen und kontinuierlicher Vorschulung AWS .

In dem Szenario, in dem Sie off-the-shelf Modelle mit RAG verwenden, können Sie sich auf Cloud-KI-Dienste wie Amazon Bedrock verlassen. Diese Dienste bieten regelmäßige Modell-Upgrades an, sobald sie veröffentlicht werden, und fügen sie dem verfügbaren Katalog hinzu. Auf diese Weise können Sie Ihre Lösungen so aktualisieren, dass sie die neuesten Versionen dieser Basismodelle verwenden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Datenunterschiede

Überlegungen zur Datensicherheit