Wie Machine Learning dabei hilft, ein Problem zu lösen Begriffe und Konzepte von Amazon Redshift ML

Übersicht zum Machine Learning

Mit Amazon Redshift können Sie Machine-Learning-Funktionen nutzen, um wertvolle Erkenntnisse aus Ihren Daten zu gewinnen. Diese Übersicht zu Machine Learning (ML) zeigt Ihnen, wie Sie Ihre Daten für das Training und die Bereitstellung von ML-Modellen untersuchen, visualisieren und vorbereiten können. Die folgenden Abschnitte führen Sie durch den Prozess der Nutzung von Amazon Redshift ML, um das Potenzial Ihrer Daten mithilfe von Machine Learning auszuschöpfen.

Mithilfe von Amazon Redshift ML können Sie Machine-Learning-Modelle mithilfe von SQL-Anweisungen trainieren und sie in SQL-Abfragen für Prognosen aufrufen.

Mehr über die Verwendung von Amazon Redshift ML erfahren Sie in folgendem Video.

Informationen zu den Voraussetzungen für die Einrichtung Ihres Redshift-Clusters oder Ihrer Serverless-Arbeitsgruppe, zu den Berechtigungen und zur Eigentümerschaft für die Verwendung von Amazon Redshift ML finden Sie in den folgenden Abschnitten. In diesen Abschnitten wird auch beschrieben, wie einfache Trainings und Prognosen in Amazon Redshift ML funktionieren.

Wie Machine Learning dabei hilft, ein Problem zu lösen

Machine-Learning-Modelle generieren Prognosen, indem Muster in Ihren Trainingsdaten gefunden und diese Muster dann auf neue Daten angewendet werden. Beim Machine Learning trainieren Sie diese Modelle, indem Muster gelernt werden, die ihre Daten am besten beschreiben. Dann verwenden Sie diese Modelle, um Prognosen (auch als Inferenzen bezeichnet) für neue Daten zu stellen. Machine Learning ist normalerweise ein iterativer Prozess, bei dem Sie die Genauigkeit der Prognosen weiter verbessern können, indem Sie die Parameter ändern und Ihre Trainingsdaten verbessern. Wenn sich Daten ändern, erfolgt ein erneutes Training neuer Modelle mit dem neuen Datensatz.

Um verschiedene Geschäftsziele zu erreichen, gibt es verschiedene grundlegende Machine-Learning-Ansätze.

Supervised Learning in Amazon Redshift ML

Amazon Redshift unterstützt Supervised Learning – den gängigsten Ansatz für fortschrittliche Unternehmensanalysen. Supervised Learning ist der bevorzugte Machine-Learning-Ansatz, wenn Sie einen festgelegten Datensatz haben und verstehen, wie bestimmte Eingabedaten Prognosen zu verschiedenen Geschäftsergebnissen erstellen. Diese Ergebnisse werden manchmal als Labels bezeichnet. Ihr Datensatz ist im Wesentlichen eine Tabelle mit Attributen, die aus Merkmalen (Eingaben) und Zielen (Ausgaben) bestehen. Stellen Sie sich zum Beispiel eine Tabelle vor, die das Alter und die Postleitzahl für vergangene und gegenwärtige Kunden enthält. Nehmen Sie außerdem an, dass es das Feld „aktiv“ gibt, das für gegenwärtige Kunden den Wert „true“ hat und für vergangene Kunden, die ihre Mitgliedschaft ausgesetzt haben, den Wert „false“. Das Ziel des Supervised Machine Learning ist es, Muster im Alter und den Postleitzahlen zu erkennen, die zur Kundenabwanderung führen, die von Kunden mit dem Wert „false“ dargestellt wird. Sie können dieses Modell verwenden, um vorherzusagen, welche Kunden wahrscheinlich abwandern werden, zum Beispiel indem sie ihre Mitgliedschaft aussetzen, und gegebenenfalls Initiativen zur Bindung anzubieten.

Amazon Redshift unterstützt Supervised Learning. Dies umfasst Regression, binäre Klassifizierung und Mehrklassen-Klassifizierung. Regression bezieht sich auf das Problem der Prognose kontinuierlicher Werte, wie zum Beispiel der Gesamtausgaben der Kunden. Binäre Klassifizierung bezieht sich auf das Problem der Prognose eines von zwei Ergebnissen, z. B. die Prognose, ob ein Kunde abwandert oder nicht. Mehrklassen-Klassifizierung bezieht sich auf das Problem der Prognose eines von vielen Ergebnissen, z. B. die Prognose des Artikels, der für einen Kunden interessant sein könnte. Datenanalysten und Datenwissenschaftler können sie verwenden, um Supervised Learning durchzuführen, um Probleme bei Prognosen, der Personalisierung und der Vorhersage der Kundenabwanderung zu lösen. Sie können Supervised Learning auch bei Problemen wie der Prognose, welche Verkäufe abgeschlossen werden, Umsatzprognose, Betrugserkennung und Prognose des Kundenlebenszeitwerts nutzen.

Unsupervised Learning in Amazon Redshift ML

Unsupervised Learning verwendet Machine-Learning-Algorithmen, um nicht gekennzeichnete Trainingsdaten zu analysieren und zu gruppieren. Die Algorithmen erkennen versteckte Muster oder Gruppierungen. Ziel ist es, die zugrunde liegende Struktur oder Verteilung in den Daten zu modellieren, um weitere Informationen über die Daten zu erfahren.

Amazon Redshift unterstützt den K-Means Clustering-Algorithmus zur Lösung eines Problems beim unbeaufsichtigten Lernen. Dieser Algorithmus löst Clusterprobleme, bei denen Sie Gruppierungen in den Daten erkennen möchten. Der K-Means Algorithmus versucht, diskrete Gruppierungen innerhalb der Daten zu finden. Nicht klassifizierte Daten werden aufgrund ihrer Ähnlichkeiten und Unterschiede gruppiert und partitioniert. Durch Gruppierung bestimmt der K-Means Algorithmus iterativ die besten Zentroide und ordnet jedes Element dem nächstgelegenen Schwerpunkt zu. Mitglieder mit dem gleichen nächstgelegenen Schwerpunkt gehören zur selben Gruppe. Mitglieder einer Gruppe sind anderen Mitgliedern derselben Gruppe so ähnlich wie möglich und unterscheiden sich so stark wie möglich von Mitgliedern anderer Gruppen. Der K-Means Clustering-Algorithmus kann beispielsweise verwendet werden, um Städte zu klassifizieren, die von einer Pandemie betroffen sind, oder um Städte anhand der Beliebtheit von Konsumgütern zu klassifizieren.

Wenn Sie den K-Means Algorithmus verwenden, geben Sie eine Eingabe an, die die Anzahl der Cluster k angibt, die in den Daten gefunden werden sollen. Dieser Algorithmus gibt einen Satz von k-Schwerpunkten aus. Jeder Datenpunkt gehört zu einem der k-Cluster, der ihm am nächsten liegt. Beschrieben wird jeder Cluster durch seinen Schwerpunkt. Der Schwerpunkt kann als mehrdimensionaler Durchschnitt des Clusters bertrachtet werden. Der K-Means Algorithmus vergleicht die Entfernungen, um festzustellen, wie unterschiedlich die Cluster voneinander sind. Ein größerer Abstand weist allgemein auf einen größeren Unterschied zwischen den Clustern hin.

Die Vorverarbeitung der Daten ist wichtig für K-Means, da sie sicherstellt, dass die Merkmale des Modells auf demselben Maßstab bleiben und zuverlässige Ergebnisse erzielt werden. Amazon Redshift unterstützt einige K-Means Präprozessoren für die CREATE MODEL-Anweisung, wie StandardScaler MinMax, und. NumericPassthrough Wenn Sie keine Vorverarbeitung für anwenden möchten K-means, wählen Sie NumericPassthrough explizit als Transformator. Weitere Hinweise zu K-Means Parametern finden Sie unterMODELL mit K-MEANS Parametern ERSTELLEN.

Schauen Sie sich das folgende Video an, damit Sie lernen, wie Sie unbeaufsichtigtes Training mit K-Means Clustering durchführen können.

Begriffe und Konzepte von Amazon Redshift ML

Die folgenden Beschreibungen werden verwendet, um einige Konzepte von Amazon Redshift ML zu beschreiben:

Machine Learning in Amazon Redshift trainiert ein Modell mit einem SQL-Befehl. Amazon Redshift ML und Amazon SageMaker AI verwalten alle Datenkonvertierungen, Berechtigungen, die Ressourcennutzung und die Suche nach dem richtigen Modell.
Training ist die Phase, in der Amazon Redshift ein Machine-Learning-Modell erstellt, indem eine bestimmte Teilmenge von Daten im Modell ausgeführt wird. Amazon Redshift startet automatisch einen Schulungsjob in Amazon SageMaker AI und generiert ein Modell.
Prognose (auch Inferenz genannt) ist die Verwendung des Modells in Amazon-Redshift-SQL-Abfragen, um Ergebnisse vorherzusagen. Zur Inferenzzeit verwendet Amazon Redshift eine modellbasierte Prognosefunktion als Teil einer größeren Abfrage, um Prognosen zu erstellen. Die Prognosen werden lokal im Redshift-Cluster berechnet und bieten somit einen hohen Durchsatz, eine niedrige Latenz und keine Zusatzkosten.
Mit Bring Your Own Model (BYOM) können Sie ein außerhalb von Amazon Redshift mit Amazon SageMaker AI trainiertes Modell für datenbankinterne Inferenzen lokal in Amazon Redshift verwenden. Amazon Redshift ML unterstützt die Verwendung von BYOM in der lokalen Inferenz.
Lokale Inferenz wird verwendet, wenn Modelle in Amazon SageMaker AI vortrainiert, von Amazon SageMaker AI Neo kompiliert und in Amazon Redshift ML lokalisiert werden. Um Modelle zu importieren, die für lokale Inferenz in Amazon Redshift unterstützt werden, verwenden Sie den Befehl CREATE MODEL. Amazon Redshift importiert die vortrainierten SageMaker KI-Modelle, indem es Amazon SageMaker AI Neo aufruft. Sie kompilieren das Modell dort und importieren das kompilierte Modell in Amazon Redshift. Nutzen Sie lokale Inferenz für höhere Geschwindigkeit und niedrigere Kosten.
Ferninferenz wird verwendet, wenn Amazon Redshift einen in KI bereitgestellten Modellendpunkt aufruft. SageMaker Remote-Inferenz bietet die Flexibilität, alle Arten von benutzerdefinierten Modellen und Deep-Learning-Modellen aufzurufen, z. B. TensorFlow Modelle, die Sie in Amazon SageMaker AI erstellt und bereitgestellt haben.

Wichtig sind außerdem:

Amazon SageMaker AI ist ein vollständig verwalteter Service für maschinelles Lernen. Mit Amazon SageMaker AI können Datenwissenschaftler und Entwickler auf einfache Weise Modelle erstellen, trainieren und direkt in einer produktionsbereiten gehosteten Umgebung bereitstellen. Informationen zu Amazon SageMaker AI finden Sie unter Was ist Amazon SageMaker AI im Amazon SageMaker AI Developer Guide.
Amazon SageMaker AI Autopilot ist ein Funktionsumfang, der auf der Grundlage Ihrer Daten automatisch die besten Modelle für maschinelles Lernen für die Klassifizierung oder Regression trainiert und optimiert. Sie behalten die volle Kontrolle und Transparenz. Amazon SageMaker AI Autopilot unterstützt Eingabedaten im Tabellenformat. Amazon SageMaker AI Autopilot bietet automatische Datenbereinigung und Vorverarbeitung, automatische Algorithmusauswahl für lineare Regression, binäre Klassifizierung und Mehrklassenklassifizierung. Es unterstützt auch die automatische Hyperparameteroptimierung (HPO), verteiltes Training, automatische Instances und Clustergrößenauswahl. Informationen zu Amazon SageMaker AI Autopilot finden Sie unter Automatisieren der Modellentwicklung mit Amazon SageMaker AI Autopilot im Amazon SageMaker AI Developer Guide.
Amazon Bedrock ist ein vollständig verwalteter Service, der über eine einzige API eine Auswahl an leistungsstarken Basismodellen (FMs) von führenden KI-Unternehmen wie AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI und Amazon sowie eine Vielzahl von erforderlichen Funktionen für die Erstellung von Anwendungen mit generativer KI bietet.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Machine Learning

Machine Learning für Anfänger und Experten