Datenunterschiede zwischen generativer KI und herkömmlichem ML

Die Landschaft der künstlichen Intelligenz zeichnet sich durch einen grundlegenden Unterschied zwischen traditionellen Ansätzen des maschinellen Lernens und modernen generativen KI-Systemen aus, insbesondere in Bezug auf die Art und Weise, wie sie Daten verarbeiten und nutzen. Diese umfassende Analyse untersucht drei Schlüsseldimensionen dieser technologischen Entwicklung: die strukturellen Unterschiede zwischen Datentypen, ihre Verarbeitungsanforderungen und die unterschiedlichen Datenmodalitäten, mit denen moderne KI-Systeme umgehen können. Es zeigt auch, wie sich synthetische Daten, die durch generative KI erzeugt werden, zu einer neuen Quelle für Trainingsdaten entwickeln. Synthetische Daten ermöglichen die Implementierung traditioneller ML-Anwendungsfälle, die zuvor durch Datenknappheit und Datenschutzbeschränkungen eingeschränkt waren. Das Verständnis dieser Unterscheidungen ist für Unternehmen von entscheidender Bedeutung, da es Ihnen hilft, die Komplexität von Datenmanagement, Modelltraining und praktischen Anwendungen in verschiedenen Branchen zu bewältigen.

In diesem Abschnitt werden folgende Themen behandelt:

Strukturierte und unstrukturierte Daten
Vielfältige Datenmodalitäten
Datensynthese für herkömmliches ML

Strukturierte und unstrukturierte Daten

Traditionelle ML-Modelle und moderne generative KI-Systeme unterscheiden sich erheblich in ihren Datenanforderungen und der Art der Daten, die sie verarbeiten.

Herkömmliches ML verwendet Daten, die in Tabellen oder festen Schemas organisiert sind, oder kuratierte Bild- und Audiodatensätze mit Anmerkungen. Beispiele hierfür sind Vorhersagemodelle, die tabellarische Daten analysieren, oder klassisches maschinelles Sehen. Diese Systeme stützen sich häufig auf strukturierte, beschriftete Datensätze. Beim überwachten Lernen ist jeder Datenpunkt in der Regel mit einer expliziten Bezeichnung oder einem Ziel versehen, z. B. einem beschrifteten Bild cat oder einer Zeile mit Verkaufsdaten, die einen Zielwert haben.

Im Gegensatz dazu profitieren generative KI-Modelle von unstrukturierten oder halbstrukturierten Daten. Dazu gehören große Sprachmodelle (LLMs) und generative Vision- oder Audiomodelle. Sie benötigen keine ausdrücklichen Bezeichnungen für die Vorbereitung auf das Training. In diesem Fall erlernen sie das allgemeine Sprachverständnis anhand eines riesigen, vielfältigen Datensatzes. Dieser Unterschied ist entscheidend: Generative Modelle können riesige Mengen an Text oder Bildern aufnehmen und daraus lernen, ohne dass sie manuell beschriftet werden müssen. Das ist etwas, das herkömmliches, überwachtes ML nicht kann.

Um bei bestimmten Aufgaben oder Bereichen hervorragende Leistungen zu erbringen, LLMs benötigen diese Vortrainierten ein aufgabenspezifisches Training, das oft als Feinabstimmung bezeichnet wird. Dabei wird das vortrainierte Modell anhand eines kleineren, spezialisierten Datensatzes mit Anweisungen oder Fertigungspaaren weiter trainiert. Auf diese Weise ähnelt die Feinabstimmung eines generativen KI-Modells dem Prozess des überwachten Trainings für ein herkömmliches ML-Modell.

Vielfältige Datenmodalitäten

Moderne generative KI-Modelle verarbeiten und erzeugen eine Vielzahl von Datentypen: Text, Code, Bilder, Audio, Video und sogar Kombinationen, sogenannte multimodale Daten. Grundlagenmodelle wie Anthropic Claude werden beispielsweise anhand von Textdaten (Webseiten, Büchern, Artikeln) und sogar großen Code-Repositorien trainiert. Generative Vision-Modelle wie Amazon Nova Canvas oder Stable Diffusion lernen aus Bildern, die oft mit Text kombiniert werden (Bildunterschriften oder Beschriftungen). Generative Audiomodelle können Schallwellendaten oder Transkripte verwenden, um Sprache oder Musik zu erzeugen.

Generative KI-Systeme sind zunehmend multimodal. Diese Systeme können Kombinationen aus Text, Bildern und Audio verarbeiten und erzeugen und sind in der Lage, unstrukturierten Text und Medien in großem Maßstab zu verarbeiten. Sie können die Nuancen von Sprache, Bild und Ton erlernen, die mit herkömmlichem maschinellem Lernen strukturierter Daten nicht möglich sind. Diese Flexibilität steht im Gegensatz zu typischen ML-Modellen, die sich normalerweise auf jeweils einen Datentyp spezialisieren. Beispielsweise kann ein Bildklassifizierungsmodell keinen Text generieren, oder ein NLP-Modell (Natural Language Processing), das für die Stimmungsanalyse trainiert wurde, kann keine Bilder erzeugen.

Sie haben sogar Grenzen LLMs . Wenn es um die Verarbeitung von Tabellendaten wie CSV-Dateien geht, LLMs stehen Sie bei der Inferenz vor erheblichen Herausforderungen. Die Studie The Uncovering Limitations of Large Language Models in Information Seeking from Tables zeigt, dass es LLMs oft schwierig ist, Tabellenstrukturen zu verstehen und Informationen genau zu extrahieren. Die Untersuchung ergab, dass die Leistung der Modelle von geringfügig zufriedenstellend bis unzureichend reichte, was auf ein unzureichendes Verständnis der Tabellenstrukturen schließen lässt. Das inhärente Design von LLMs trägt zu diesen Einschränkungen bei. Sie werden in erster Linie mit sequentiellen Textdaten trainiert, was sie in die Lage versetzt, textbasierte Inhalte vorherzusagen und zu generieren. Diese Schulung lässt sich jedoch nicht ohne Weiteres auf die Interpretation von Tabellendaten übertragen, bei denen es entscheidend ist, die Beziehungen zwischen Zeilen und Spalten zu verstehen. Dies LLMs kann dazu führen, dass der Kontext oder die Bedeutung numerischer Daten in Tabellen falsch interpretiert werden, was zu ungenauen Analysen führt.

Im Wesentlichen muss eine Unternehmensdatenstrategie für generative KI weitaus mehr unstrukturierte Inhalte berücksichtigen als zuvor. Organizations müssen ihren Textkörper (Dokumente, E-Mails, Wissensdatenbanken), Code-Repositorys, Audio- und Videoarchive und andere unstrukturierte Datenquellen auswerten — nicht nur die übersichtlich organisierten Tabellen in ihrem Data Warehouse.

Datensynthese für herkömmliches ML

Generative KI kann einige seit langem bestehende Hindernisse überwinden, mit denen herkömmliches maschinelles Lernen konfrontiert ist, insbesondere solche, die mit Datenknappheit und Datenschutzbeschränkungen zusammenhängen. Durch die Verwendung von Basismodellen zur Generierung synthetischer Daten — künstlicher Datensätze, die reale Verteilungen genau nachahmen — können Unternehmen nun ML-Anwendungsfälle erschließen, die zuvor aufgrund von Datenknappheit, Datenschutzbedenken und der hohen Kosten im Zusammenhang mit der Erfassung und Kommentierung großer Datensätze unerreichbar waren.

Im Gesundheitswesen wurden beispielsweise synthetische medizinische Bilder verwendet, um bestehende Datensätze zu erweitern. Dies kann die Diagnosemodelle verbessern und gleichzeitig die Vertraulichkeit der Patienten wahren. Im Finanzsektor können synthetische Daten Ihnen helfen, Marktszenarien zu simulieren, was bei der Risikobewertung und beim algorithmischen Handel hilft, ohne sensible Informationen preiszugeben. Synthetische Daten, die unterschiedliche Fahrbedingungen simulieren, kommen der Entwicklung autonomer Fahrzeuge zugute. Es erleichtert das Training von Computer-Vision-Systemen in Szenarien, deren Erfassung im wirklichen Leben schwierig ist. Durch die Verwendung von Basismodellen für die Generierung synthetischer Daten können Unternehmen die Leistung von ML-Modellen verbessern, Datenschutzbestimmungen einhalten und neue Anwendungsfälle in verschiedenen Branchen erschließen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einführung

Datenlebenszyklus