Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# So funktionieren benutzerdefinierte Modelle
<a name="canvas-build-model"></a>

Verwenden Sie Amazon SageMaker Canvas, um ein benutzerdefiniertes Modell für den Datensatz zu erstellen, den Sie importiert haben. Verwenden Sie das Modell, das Sie erstellt haben, um Vorhersagen für neue Daten zu treffen. SageMaker Canvas verwendet die Informationen im Datensatz, um bis zu 250 Modelle zu erstellen und das Modell auszuwählen, das die beste Leistung erbringt.

Wenn Sie mit der Erstellung eines Modells beginnen, empfiehlt Canvas automatisch einen oder mehrere *Modelltypen*. Modelltypen lassen sich in eine der folgenden Kategorien einteilen:
+ **Numerische Vorhersage** – Dies wird beim Machine Learning als *Regression* bezeichnet. Verwenden Sie den numerischen Prognosemodelltyp, wenn Sie Vorhersagen für numerische Daten treffen möchten. Möglicherweise möchten Sie den Preis von Häusern anhand von Features wie der Quadratmeterzahl des Hauses vorhersagen.
+ **Kategorische Vorhersage** – Dies wird beim Machine Learning als *Klassifizierung* bezeichnet. Wenn Sie Daten in Gruppen kategorisieren möchten, verwenden Sie die Typen von kategorialen Vorhersagemodellen:
  + **Vorhersage mit 2 Kategorien** – Verwenden Sie den Vorhersagemodelltyp 2 Kategorien (beim Machine Learning auch als *binäre Klassifikation* bezeichnet), wenn Sie zwei Kategorien haben, die Sie für Ihre Daten vorhersagen möchten. Beispielsweise können Sie feststellen, ob ein Kunde wahrscheinlich abwandern wird.
  + **Vorhersage für 3 oder mehr Kategorien** – Verwenden Sie den Modelltyp für die Vorhersage von Kategorien ab 3 oder mehr (beim Machine Learning auch als *Klassifizierung mit mehreren Klassen* bezeichnet), wenn Sie drei oder mehr Kategorien haben, die Sie für Ihre Daten vorhersagen möchten. So können Sie z. B. den Kreditstatus eines Kunden anhand von Features wie früheren Zahlungen vorhersagen.
+ **Zeitreihenprognosen** – Verwenden Sie Zeitreihenprognosen, wenn Sie Vorhersagen über einen bestimmten Zeitraum treffen möchten. So können Sie beispielsweise die Anzahl der Artikel vorhersagen, die Sie im nächsten Quartal verkaufen werden. Informationen zu Zeitreihenprognosen finden Sie unter [Zeitreihenprognosen in Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-time-series.html).
+ **Bildvorhersage** – Verwenden Sie den Modelltyp für die Bildvorhersage mit einer einzigen Beschriftung (beim Machine Learning auch als *Bildklassifizierung mit einfacher Bezeichnung* bezeichnet), wenn Sie Bildern Beschriftungen zuweisen möchten. So können Sie z. B. verschiedene Arten von Herstellungsfehlern in Bildern Ihres Produkts klassifizieren.
+ **Textvorhersage** – Verwenden Sie den Modelltyp für Textvorhersagen mit mehreren Kategorien (beim Machine Learning auch als *Textklassifizierung mit mehreren Klassen* bezeichnet), wenn Sie Textpassagen Beschriftungen zuweisen möchten. Angenommen, Sie verfügen über einen Datensatz mit Kundenrezensionen für ein Produkt und möchten ermitteln, ob Kunden das Produkt möchten oder nicht. Sie könnten Ihr Modell vorhersagen lassen, ob eine bestimmte Textpassage `Positive`, `Negative`, oder `Neutral` ist.

Eine Tabelle der unterstützten Eingabedatentypen für jeden Modelltyp finden Sie unter [Benutzerdefinierte Modelle](canvas-custom-models.md).

Für jedes tabellarische Datenmodell, das Sie erstellen (das numerische, kategoriale, Zeitreihenprognosen und Textvorhersagemodelle umfasst), wählen Sie die **Zielspalte** aus. Die **Zielspalte** ist die Spalte, die die Informationen enthält, die Sie vorhersagen möchten. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob Personen ihre Abonnements gekündigt haben, enthält die **Zielspalte** Datenpunkte, die entweder ein `yes` oder ein `no` zum Kündigungsstatus einer Person sind.

Bei Modellen zur Bildvorhersage erstellen Sie das Modell mit einem Datensatz von Bildern, denen Beschriftungen zugewiesen wurden. Für die unbeschrifteten Bilder, die Sie bereitstellen, prognostiziert das Modell eine Beschriftung. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob es sich bei dem Bild um eine Katze oder einen Hund handelt, geben Sie beim Erstellen des Modells Bilder an, die als Katzen oder Hunde gekennzeichnet sind. Dann kann das Modell unbeschriftete Bilder akzeptieren und sie entweder als Katzen oder Hunde vorhersagen.

**Was geschieht, wenn Sie ein Modell erstellen**

Um Ihr Modell zu erstellen, können Sie entweder einen **Schnellaufbau** oder einen **Standardaufbau** wählen. Der **Schnellaufbau** hat eine kürzere Bauzeit, der **Standardaufbau** hat jedoch im Allgemeinen eine höhere Genauigkeit.

Bei tabellarischen und Zeitreihen-Prognosemodellen verwendet Canvas *Downsampling*, um die Größe von Datensätzen zu reduzieren, die größer als 5 GB bzw. 30 GB sind. Canvas führt ein Downsampling mit der stratifizierten Sampling-Methode durch. Die folgende Tabelle listet die Größe des Downsamples nach Modelltyp auf. Zur Steuerung des Sampling-Verfahrens können Sie Data Wrangler in Canvas verwenden, um mit Ihrer bevorzugten Sampling-Methode Stichproben zu ziehen. Bei Zeitreihendaten können Sie ein Resampling durchführen, um Datenpunkte zu aggregieren. Weitere Informationen zum Sampling finden Sie unter [Sampling](canvas-transform.md#canvas-transform-sampling). Weitere Informationen zum Resampling von Zeitreihendaten finden Sie unter [Nehmen Sie erneut Proben aus den Zeitreihendaten](canvas-transform.md#canvas-resample-time-series).

Wenn Sie sich für einen **Quick-Build** eines Datensatzes mit mehr als 50 000 Zeilen entscheiden, reduziert Canvas Ihre Daten auf 50 000 Zeilen, um die Modelltrainingszeit zu verkürzen.

In der folgenden Tabelle werden die wichtigsten Merkmale des Modellbildungsprozesses zusammengefasst, darunter die durchschnittlichen Erstellungszeiten für jedes Modell und jeden Modelltyp, die Größe der Downsampling-Datei bei der Erstellung von Modellen mit großen Datensätzen sowie die minimale und maximale Anzahl von Datenpunkten, die für jeden Modelltyp erforderlich sind.


| Limit | Numerische und kategoriale Vorhersage | Zeitreihenprognosen | Bildvorhersage | Textvorhersage | 
| --- | --- | --- | --- | --- | 
| **Schnelle Aufbauzeit** | 2-20 Minuten | 2-20 Minuten | 15-30 Minuten | 15-30 Minuten | 
| **Standardbauzeit** | 2-4 Stunden | 2-4 Stunden | 2-5 Stunden | 2-5 Stunden | 
| Downsampling-Größe (die reduzierte Größe eines großen Datensatzes nach dem Canvas-Downsampling) | 5 GB | 30 GB | – | – | 
| Mindestanzahl von Einträgen (Zeilen) für **Schnellaufbau** |  Kategorie 2: 500 Zeilen Kategorie 3\$1, numerisch, Zeitreihen: N/A  | – | – | – | 
| Mindestanzahl von Einträgen (Zeilen, Bilder oder Dokumente) für **Standardaufbau** | 250 | 50 | 50 | – | 
| Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für **Schnellaufbau** | – | – | 5000 | 7500 | 
| Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für **Standardaufbau** | – | 150.000 | 180 000 | – | 
| Maximale Anzahl von Spalten | 1.000 | 1.000 | – | – | 

Canvas prognostiziert Werte anhand der Informationen im Rest des Datensatzes, je nach Modelltyp:
+ Für kategoriale Vorhersagen ordnet Canvas jede Zeile einer der Kategorien zu, die in der Spalte **Ziel** aufgeführt sind.
+ Für numerische Vorhersagen verwendet Canvas die Informationen im Datensatz, um die numerischen Werte in der **Zielspalte** vorherzusagen.
+ Für Zeitreihenprognosen verwendet Canvas historische Daten, um Werte für die **Zielspalte** in der Zukunft vorherzusagen.
+ Für die Bildvorhersage verwendet Canvas Bilder, denen Beschriftungen zugewiesen wurden, um Beschriftungen für Bilder ohne Beschriftungen vorherzusagen.
+ Für die Textvorhersage analysiert Canvas Textdaten, denen Beschriftungen zugewiesen wurden, um Beschriftungen für Textpassagen ohne Beschriftungen vorherzusagen.

**Zusätzliche Features, die Ihnen bei der Erstellung Ihres Modells helfen**

Bevor Sie Ihr Modell erstellen, können Sie Data Wrangler in Canvas verwenden, um Ihre Daten mithilfe von mehr als 300 integrierten Transformationen und Operatoren vorzubereiten. Data Wrangler unterstützt Transformationen sowohl für tabellarische als auch für Bilddatensätze. Darüber hinaus können Sie eine Verbindung zu Datenquellen außerhalb von Canvas herstellen, Aufträge erstellen, um Transformationen auf Ihren gesamten Datensatz anzuwenden, und Ihre vollständig vorbereiteten und bereinigten Daten zur Verwendung in ML-Workflows außerhalb von Canvas exportieren. Weitere Informationen finden Sie unter [Datenaufbereitung](canvas-data-prep.md).

Um Visualisierungen und Analysen anzuzeigen, mit denen Sie Ihre Daten untersuchen und festlegen können, welche Features in Ihr Modell aufgenommen werden sollen, können Sie die integrierten Analysen von Data Wrangler verwenden. Sie können auch auf einen **Datenqualitäts- und Insights-Bericht** zugreifen, in dem potenzielle Probleme mit Ihrem Datensatz hervorgehoben und Empfehlungen zu deren Behebung gegeben werden. Weitere Informationen finden Sie unter [Durchführen einer explorativen Datenanalyse (EDA)](canvas-analyses.md).

Zusätzlich zu den fortschrittlicheren Funktionen zur Datenaufbereitung und Erkundung von Daten, die von Data Wrangler bereitgestellt werden, bietet Canvas einige grundlegende Features, die Sie verwenden können:
+ Informationen zum Filtern Ihrer Daten und zum Zugriff auf eine Reihe grundlegender Datentransformationen finden Sie unter [Vorbereiten der Daten für die Modellerstellung](canvas-prepare-data.md).
+ Informationen zum Zugriff auf einfache Visualisierungen und Analytik für die Erkundung von Features finden Sie unter [Datenexploration und Analyse](canvas-explore-data.md).
+ Weitere Informationen zu zusätzlichen Featureswie der Vorschau Ihres Modells, der Validierung Ihres Datensatzes und der Änderung der Größe der Zufallsstichprobe, die zur Erstellung Ihres Modells verwendet wurde, finden Sie unter [Zeigen Sie eine Vorschau Ihres Modells an](canvas-preview-model.md).

Bei tabellarischen Datensätzen mit mehreren Spalten (z. B. Datensätze für die Erstellung von Modelltypen für kategoriale, numerische oder Zeitreihenprognosen) gibt es möglicherweise Zeilen mit fehlenden Datenpunkten. Während Canvas das Modell erstellt, fügt es fehlende Werte automatisch hinzu. Canvas verwendet die Werte in Ihrem Datensatz, um eine mathematische Näherung für die fehlenden Werte durchzuführen. Für die höchste Modellgenauigkeit empfehlen wir, die fehlenden Daten hinzuzufügen, wenn Sie sie finden können. Beachten Sie, dass die Feature für fehlende Daten für Modelle zur Textvorhersage oder Bildvorhersage nicht unterstützt wird.

**Erste Schritte**

Informationen zu den ersten Schritten beim Erstellen eines benutzerdefinierten Modells finden Sie in [Ein Modell erstellen](canvas-build-model-how-to.md) und folgen Sie dem Verfahren für den Modelltyp, den Sie erstellen möchten.

# Zeigen Sie eine Vorschau Ihres Modells an
<a name="canvas-preview-model"></a>

**Anmerkung**  
Die folgenden Features sind nur für benutzerdefinierte Modelle verfügbar, die mit tabellarischen Datensätzen erstellt wurden. Textvorhersagemodelle mit mehreren Kategorien sind ebenfalls ausgeschlossen.

SageMaker Canvas bietet Ihnen ein Tool, mit dem Sie eine Vorschau Ihres Modells anzeigen können, bevor Sie mit der Erstellung beginnen. Dadurch erhalten Sie einen geschätzten Genauigkeitswert und eine vorläufige Vorstellung davon, wie sich jede Spalte auf das Modell auswirken könnte. 

Um eine Vorschau der Modellbewertung anzuzeigen, wählen Sie auf der Registerkarte **Erstellen** Ihres Modells die Option **Modellvorschau** aus.

Die Modellvorschau generiert eine Vorhersage mit **geschätzter Genauigkeit** darüber, wie gut das Modell Ihre Daten analysieren könnte. Die Genauigkeit eines **Schnellaufbaus** oder **Standardaufbaus** gibt an, wie gut das Modell mit realen Daten abschneiden kann, und ist im Allgemeinen höher als die **geschätzte Genauigkeit**.

Die Modellvorschau liefert Ihnen auch die **Spaltenauswirkungswerte**, die Aufschluss über die Bedeutung jeder Spalte für die Vorhersagen des Modells geben können.

Der folgende Screenshot zeigt eine Modellvorschau in der Canvas-Anwendung.

![\[Screenshot der Registerkarte Erstellen für ein Modell in Canvas.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-build/canvas-build-preview-model.png)


Amazon SageMaker Canvas verarbeitet fehlende Werte in Ihrem Datensatz automatisch, während das Modell erstellt wird. Es leitet die fehlenden Werte ab, indem es benachbarte Werte verwendet, die im Datensatz vorhanden sind.

Wenn Sie mit Ihrer Modellvorschau zufrieden sind und mit dem Erstellen eines Modells fortfahren möchten, finden Sie weitere Informationen unter [Ein Modell erstellen](canvas-build-model-how-to.md).

# Datenvalidierung
<a name="canvas-dataset-validation"></a>

Bevor Sie Ihr Modell erstellen, überprüft SageMaker Canvas Ihren Datensatz auf Probleme, die dazu führen könnten, dass Ihr Build fehlschlägt. Wenn SageMaker Canvas Probleme feststellt, werden Sie auf der **Build-Seite** gewarnt, bevor Sie versuchen, ein Modell zu erstellen.

Sie können **Daten validieren** wählen, um eine Liste der Probleme mit Ihrem Datensatz anzuzeigen. Anschließend können Sie die [Datenvorbereitungsfunktionen von SageMaker Canvas Data Wrangler](canvas-data-prep.md) oder Ihre eigenen Tools verwenden, um Ihren Datensatz zu korrigieren, bevor Sie mit einem Build beginnen. Wenn Sie die Probleme mit Ihrem Datensatz nicht beheben, schlägt Ihr Build fehl.

Wenn Sie Änderungen an Ihrem Datensatz vornehmen, um die Probleme zu beheben, haben Sie die Möglichkeit, Ihren Datensatz erneut zu validieren, bevor Sie einen Build versuchen. Wir empfehlen, dass Sie Ihren Datensatz vor der Erstellung erneut überprüfen.

Die folgende Tabelle zeigt die Probleme, nach denen SageMaker Canvas in Ihrem Datensatz sucht, und zeigt, wie Sie sie lösen können.


| Problem | Auflösung | 
| --- | --- | 
|  Falscher Modelltyp für Ihre Daten  |  Versuchen Sie es mit einem anderen Modelltyp oder verwenden Sie einen anderen Datensatz.  | 
|  Fehlende Werte in Ihrer Zielspalte  |  Ersetzen Sie die fehlenden Werte, löschen Sie Zeilen mit fehlenden Werten oder verwenden Sie einen anderen Datensatz.  | 
|  Zu viele eindeutige Beschriftungen in Ihrer Zielspalte  |  Vergewissern Sie sich, dass Sie die richtige Spalte für Ihre Zielspalte verwendet haben, oder verwenden Sie einen anderen Datensatz.  | 
|  Zu viele nicht numerische Werte in Ihrer Zielspalte  |  Wählen Sie eine andere Zielspalte, wählen Sie einen anderen Modelltyp oder verwenden Sie einen anderen Datensatz.  | 
|  Ein oder mehrere Spaltennamen enthalten doppelte Unterstriche  |  Benennen Sie die Spalten um, um alle doppelten Unterstriche zu entfernen, und versuchen Sie es erneut.  | 
|  Keine der Zeilen in Ihrem Datensatz ist vollständig  |  Ersetzen Sie die fehlenden Werte, oder verwenden Sie einen anderen Datensatz.  | 
|  Zu viele eindeutige Beschriftungen für die Anzahl der Zeilen in Ihren Daten  |  Vergewissern Sie sich, dass Sie die richtige Zielspalte verwenden, erhöhen Sie die Anzahl der Zeilen in Ihrem Datensatz, konsolidieren Sie ähnliche Beschriftungen oder verwenden Sie einen anderen Datensatz.  | 

# Zufällige Stichprobe
<a name="canvas-random-sample"></a>

SageMaker Canvas verwendet die Methode der Zufallsstichprobe, um Ihren Datensatz zu stichproben. Die Methode der Zufallsstichprobe bedeutet, dass jede Zeile die gleiche Chance hat, für die Stichprobe ausgewählt zu werden. Sie können in der Vorschau eine Spalte auswählen, um zusammenfassende Statistiken für die Zufallsstichprobe zu erhalten, z. B. den Mittelwert und den Modus.

Standardmäßig verwendet SageMaker Canvas eine Zufallsstichprobengröße von 20.000 Zeilen aus Ihrem Datensatz für Datensätze mit mehr als 20.000 Zeilen. Für Datensätze mit weniger als 20.000 Zeilen entspricht die Standardstichprobengröße der Anzahl der Zeilen in Ihrem Datensatz. Sie können die Stichprobengröße erhöhen oder verringern, indem Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Zufallsstichprobe** auswählen. Sie können den Schieberegler verwenden, um die gewünschte Stichprobengröße auszuwählen, und dann **Aktualisieren** wählen, um die Stichprobengröße zu ändern. Die maximale Stichprobengröße, die Sie für einen Datensatz wählen können, beträgt 40.000 Zeilen, und die minimale Stichprobengröße beträgt 500 Zeilen. Wenn Sie einen großen Stichprobenumfang wählen, kann es einige Zeit dauern, bis die Datensatzvorschau und die zusammenfassenden Statistiken erneut geladen werden.

Auf der Seite **Erstellen** wird eine Vorschau von 100 Zeilen aus Ihrem Datensatz angezeigt. Wenn die Stichprobengröße der Größe Ihres Datensatzes entspricht, verwendet die Vorschau die ersten 100 Zeilen Ihres Datensatzes. Andernfalls verwendet die Vorschau die ersten 100 Zeilen der Zufallsstichprobe.

# Ein Modell erstellen
<a name="canvas-build-model-how-to"></a>

In den folgenden Abschnitten wird gezeigt, wie Sie für jeden der wichtigsten Typen von benutzerdefinierten Modellen ein Modell erstellen.
+ Informationen zum Erstellen numerischer Prognosemodelle, Vorhersagemodelle für zwei Kategorien oder Vorhersagemodelle für mehr Kategorien finden Sie unter [Erstellen Sie ein benutzerdefiniertes numerisches oder kategoriales Vorhersagemodell](#canvas-build-model-numeric-categorical).
+ Informationen zum Erstellen von Vorhersagemodellen für Bilder mit nur einer Beschriftung finden Sie unter [Erstellen Sie ein benutzerdefiniertes Bildvorhersagemodell](#canvas-build-model-image).
+ Informationen zum Erstellen von Textvorhersagemodellen mit mehreren Kategorien finden Sie unter [Erstellen Sie ein benutzerdefiniertes Textvorhersagemodell](#canvas-build-model-text).
+ Informationen zum Erstellen von Prognosemodellen für Zeitreihen finden Sie unter [Erstellen eines Zeitreihen-Prognosemodells](#canvas-build-model-forecasting).

**Anmerkung**  
Wenn Sie während der Analyse nach der Erstellung auf einen Fehler stoßen, der Sie auffordert, Ihr Kontingent für `ml.m5.2xlarge` Instances zu erhöhen, finden Sie weitere Informationen unter [Eine Erhöhung des Kontingents beantragen](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-requesting-quota-increases.html).

## Erstellen Sie ein benutzerdefiniertes numerisches oder kategoriales Vorhersagemodell
<a name="canvas-build-model-numeric-categorical"></a>

Numerische und kategoriale Vorhersagemodelle unterstützen sowohl **Schnellaufbau** als auch **Standardaufbau**.

Gehen Sie wie folgt vor, um ein numerisches oder kategoriales Vorhersagemodell zu erstellen:

1. Öffnen Sie die SageMaker Canvas-Anwendung.

1. Wählen Sie im linken Navigationsbereich **Meine Modelle** aus.

1. Wählen Sie **Neues Modell**.

1. Führen Sie im Dialogfeld **Neues Modell erstellen** die folgenden Schritte aus:

   1. Geben Sie einen Namen in das Feld **Modellname** ein.

   1. Wählen Sie den Problemtyp **Prädiktive Analyse** aus.

   1. Wählen Sie **Erstellen** aus.

1. Für **Datensatz auswählen**, wählen Sie Ihren Datensatz aus der Liste der Datensätze aus. Wenn Sie Ihre Daten noch nicht importiert haben, wählen Sie **Import** aus, um durch den Datenimport-Workflow geleitet zu werden.

1. Wenn Sie bereit sind, mit der Erstellung Ihres Modells zu beginnen, wählen Sie **Datensatz auswählen** aus.

1. Wählen Sie auf der Registerkarte **Erstellen** in der Dropdown-Liste **Zielspalte** das Ziel für Ihr Modell aus, das Sie vorhersagen möchten.

1. Für den **Modelltyp** erkennt Canvas automatisch den Problemtyp für Sie. Wenn Sie den Typ ändern oder erweiterte Modelleinstellungen konfigurieren möchten, wählen Sie **Modell konfigurieren** aus.

   Wenn das Dialogfeld **Modell konfigurieren** geöffnet wird, führen Sie die folgenden Schritte aus:

   1. Wählen Sie unter **Modelltyp** den Modelltyp aus, die Sie erstellen möchten.

   1. Nachdem Sie den Modelltyp ausgewählt haben, gibt es weitere **erweiterte Einstellungen**. Weitere Informationen zu den einzelnen erweiterten Einstellungen finden Sie unter [Erweiterte Konfigurationen für die Modellerstellung](canvas-advanced-settings.md). Um die erweiterten Einstellungen zu konfigurieren, gehen Sie wie folgt vor:

      1. (Optional) Wählen Sie im Dropdown-Menü **Zielmetrik** die Metrik aus, die Canvas bei der Erstellung Ihres Modells optimieren soll. Wenn Sie keine Metrik auswählen, wählt Canvas standardmäßig eine für Sie aus. Beschreibungen der verfügbaren Metriken finden Sie unter [Referenz zu den Metriken](canvas-metrics.md).

      1. Wählen Sie als **Trainingsmethode** den Modus **Auto**, **Ensemble** oder **Hyperparameter-Optimierung (HPO)** aus.

      1. Wählen Sie unter **Algorithmen** die Algorithmen aus, die Sie für Gebäudemodellkandidaten einbeziehen möchten.

      1. Geben Sie bei der **Datenteilung** die Prozentsätze an, wie Ihre Daten zwischen dem **Trainingssatz** und dem **Validierungssatz** aufgeteilt werden sollen. Der Trainingssatz wird für die Erstellung des Modells verwendet, während der Validierungssatz verwendet wird, um die Genauigkeit von Modellkandidaten zu testen.

      1. Gehen Sie für **Max. Anzahl der Kandidaten und Laufzeit** wie folgt vor:

         1. Legen Sie den Wert **Max. Kandidaten** oder die maximale Anzahl von Modellkandidaten fest, die Canvas generieren kann. Beachten Sie, dass **Max. Kandidaten** nur im HPO-Modus verfügbar ist.

         1. Legen Sie die Stunden- und Minutenwerte für **Max. Auftragslaufzeit** oder die maximale Zeit fest, die Canvas für die Erstellung Ihres Modells aufwenden kann. Nach Ablauf der Höchstzeit beendet Canvas die Erstellung und wählt den besten Modellkandidaten aus.

   1. Nachdem Sie die erweiterten Einstellungen konfiguriert haben, wählen Sie **Speichern** aus.

1. Wählen Sie Spalten in Ihren Daten aus oder deaktivieren Sie sie, um sie in Ihren Build aufzunehmen oder daraus zu entfernen.
**Anmerkung**  
Wenn Sie mit Ihrem Modell nach der Erstellung Batch-Vorhersagen treffen, fügt Canvas Ihren Prognoseergebnissen gelöschte Spalten hinzu. Canvas fügt die gelöschten Spalten jedoch nicht zu Ihren Batch-Vorhersagen für Zeitreihenmodelle hinzu.

1. (Optional) Verwenden Sie die von Canvas bereitgestellten Visualisierungs- und Analysetools, um Ihre Daten zu visualisieren und zu bestimmen, welche Funktionen Sie möglicherweise in Ihr Modell aufnehmen möchten. Weitere Informationen finden Sie unter [Erkunden und Analysieren Ihrer Daten](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html).

1. (Optional) Verwenden Sie Datentransformationen, um Ihre Daten zu bereinigen, zu transformieren und für die Modellerstellung vorzubereiten. Weitere Informationen finden Sie unter [ Vorbereiten Ihrer Daten mit erweiterten Transformationen](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html). Sie können Ihre Transformationen anzeigen und entfernen, indem Sie **Modellrezept** wählen, um den Seitenbereich **Modellrezept** zu öffnen.

1. (Optional) Weitere Funktionen wie die Vorschau der Genauigkeit Ihres Modells, die Validierung Ihres Datensatzes und die Änderung der Größe der Zufallsstichprobe, die Canvas Ihrem Datensatz entnimmt, finden Sie unter [Zeigen Sie eine Vorschau Ihres Modells an](canvas-preview-model.md).

1. Nachdem Sie Ihre Daten überprüft und Änderungen an Ihrem Datensatz vorgenommen haben, wählen Sie **Schnellaufbau** oder **Standardaufbau**, um mit dem Build für Ihr Modell zu beginnen. Der folgende Screenshot zeigt die **Build**-Seite und die Optionen **Schnellaufbau** und **Standardaufbau**.  
![\[Die Build-Seite für ein Modell mit 2 Kategorien, auf der die Optionen Schnellaufbau und Standardaufbau angezeigt werden.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/build-page-tabular-quick-standard-options.png)

Nachdem Ihr Modell mit der Erstellung begonnen hat, können Sie die Seite verlassen. Wenn das Modell auf der Seite **Meine Modelle** als **Bereit** angezeigt wird, ist es bereit für Analysen und Vorhersagen.

## Erstellen Sie ein benutzerdefiniertes Bildvorhersagemodell
<a name="canvas-build-model-image"></a>

Bildvorhersagemodelle mit einer Beschriftung unterstützen sowohl **Schnellaufbau** als auch **Standardaufbau**.

Gehen Sie wie folgt vor, um ein Bildvorhersagemodell mit einer einzigen Beschriftung zu erstellen:

1. Öffnen Sie die SageMaker Canvas-Anwendung.

1. Wählen Sie im linken Navigationsbereich **Meine Modelle** aus.

1. Wählen Sie **Neues Modell**.

1. Führen Sie im Dialogfeld **Neues Modell erstellen** die folgenden Schritte aus:

   1. Geben Sie einen Namen in das Feld **Modellname** ein.

   1. Wählen Sie den Problemtyp **Bildanalyse** aus.

   1. Wählen Sie **Erstellen** aus.

1. Für **Datensatz auswählen**, wählen Sie Ihren Datensatz aus der Liste der Datensätze aus. Wenn Sie Ihre Daten noch nicht importiert haben, wählen Sie **Import** aus, um durch den Datenimport-Workflow geleitet zu werden.

1. Wenn Sie bereit sind, mit der Erstellung Ihres Modells zu beginnen, wählen Sie **Datensatz auswählen** aus.

1. Auf der Registerkarte **Erstellen** sehen Sie die **Beschriftungsverteilung** für die Bilder in Ihrem Datensatz. Der **Modelltyp** ist auf **Single-Beschriftung-Bildvorhersage** eingestellt.

1. Auf dieser Seite können Sie eine Vorschau Ihrer Bilder anzeigen und den Datensatz bearbeiten. Wenn Sie über unbeschriftete Bilder verfügen, wählen Sie **Datensatz bearbeiten** und [Weisen Sie Bildern ohne Beschriftung Beschriftungen zu](canvas-edit-image.md#canvas-edit-image-assign). Sie können auch andere Aufgaben ausführen wenn Sie [Bearbeiten Sie einen Bilddatensatz](canvas-edit-image.md), z. B. Beschriftungen umbenennen und Bilder zum Datensatz hinzufügen.

1. Nachdem Sie Ihre Daten überprüft und Änderungen an Ihrem Datensatz vorgenommen haben, wählen Sie **Schnellaufbau** oder **Standardaufbau**, um mit der Erstellung Ihres Modells zu beginnen. Der folgende Screenshot zeigt die **Build**-Seite eines Bildvorhersagemodells, das zur Erstellung bereit ist.  
![\[Die Build-Seite für ein Bildvorhersagemodell mit einer einzigen Beschriftung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/build-page-image-model.png)

Nachdem Ihr Modell mit der Erstellung begonnen hat, können Sie die Seite verlassen. Wenn das Modell auf der Seite **Meine Modelle** als **Bereit** angezeigt wird, ist es bereit für Analysen und Vorhersagen.

## Erstellen Sie ein benutzerdefiniertes Textvorhersagemodell
<a name="canvas-build-model-text"></a>

Textvorhersagemodelle mit mehreren Kategorien unterstützen sowohl **Schnellaufbau** als auch **Standardaufbau**.

Gehen Sie wie folgt vor, um ein Textvorhersagemodell zu erstellen:

1. Öffnen Sie die SageMaker Canvas-Anwendung.

1. Wählen Sie im linken Navigationsbereich **Meine Modelle** aus.

1. Wählen Sie **Neues Modell**.

1. Führen Sie im Dialogfeld **Neues Modell erstellen** die folgenden Schritte aus:

   1. Geben Sie einen Namen in das Feld **Modellname** ein.

   1. Wählen Sie den Problemtyp **Textanalyse** aus.

   1. Wählen Sie **Erstellen** aus.

1. Für **Datensatz auswählen**, wählen Sie Ihren Datensatz aus der Liste der Datensätze aus. Wenn Sie Ihre Daten noch nicht importiert haben, wählen Sie **Import** aus, um durch den Datenimport-Workflow geleitet zu werden.

1. Wenn Sie bereit sind, mit der Erstellung Ihres Modells zu beginnen, wählen Sie **Datensatz auswählen** aus.

1. Wählen Sie auf der Registerkarte **Erstellen** in der Dropdown-Liste **Zielspalte** das Ziel für Ihr Modell aus, das Sie vorhersagen möchten. Die Zielspalte muss einen binären oder kategorialen Datentyp haben, und für jede eindeutige Beschriftung in der Zielspalte müssen mindestens 25 Einträge (oder Datenzeilen) vorhanden sein.

1. Vergewissern Sie sich, dass der **Modelltyp** automatisch auf **Textvorhersage für mehrere Kategorien** festgelegt ist.

1. Wählen Sie für das Trainingsspalte Ihre Quellspalte mit Textdaten aus. Dies sollte die Spalte sein, die den Text enthält, den Sie analysieren möchten.

1. Wählen Sie **Schnellaufbau** oder **Standardaufbau**, um mit der Erstellung Ihres Modells zu beginnen. Der folgende Screenshot zeigt die **Build**-Seite eines Textvorhersagemodells, das zur Erstellung bereit ist.  
![\[Die Build-Seite für ein Textvorhersagemodell mit mehreren Kategorien.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/build-page-text-model.png)

Nachdem Ihr Modell mit der Erstellung begonnen hat, können Sie die Seite verlassen. Wenn das Modell auf der Seite **Meine Modelle** als **Bereit** angezeigt wird, ist es bereit für Analysen und Vorhersagen.

## Erstellen eines Zeitreihen-Prognosemodells
<a name="canvas-build-model-forecasting"></a>

Zeitreihen-Prognosemodelle unterstützen sowohl **Quick-Builds** als auch **Standard-Builds**.

Um ein Zeitreihenprognosemodell zu erstellen, gehen Sie wie folgt vor:

1. Öffnen Sie die SageMaker Canvas-Anwendung.

1. Wählen Sie im linken Navigationsbereich **Meine Modelle** aus.

1. Wählen Sie **Neues Modell**.

1. Führen Sie im Dialogfeld **Neues Modell erstellen** die folgenden Schritte aus:

   1. Geben Sie einen Namen in das Feld **Modellname** ein.

   1. Wählen Sie den Problemtyp **Zeitreihenprognose** aus.

   1. Wählen Sie **Erstellen** aus.

1. Für **Datensatz auswählen**, wählen Sie Ihren Datensatz aus der Liste der Datensätze aus. Wenn Sie Ihre Daten noch nicht importiert haben, wählen Sie **Import** aus, um durch den Datenimport-Workflow geleitet zu werden.

1. Wenn Sie bereit sind, mit der Erstellung Ihres Modells zu beginnen, wählen Sie **Datensatz auswählen** aus.

1. Wählen Sie auf der Registerkarte **Erstellen** in der Dropdown-Liste **Zielspalte** das Ziel für Ihr Modell aus, das Sie vorhersagen möchten.

1. Wählen Sie im Abschnitt **Modelltyp** die Option **Modell konfigurieren** aus.

1. Das Feld **Modell konfigurieren** wird geöffnet. Füllen Sie für den Abschnitt **Zeitreihenkonfiguration** die folgenden Felder aus:

   1. Wählen Sie für die Spalte **Element-ID** eine Spalte in Ihrem Datensatz aus, die jede Zeile eindeutig identifiziert. Die Spalte sollte den Datentyp `Text` haben.

   1. (Optional) Wählen Sie für **Spalte gruppieren** eine oder mehrere kategoriale Spalten (mit dem Datentyp `Text`) aus, die Sie für die Gruppierung Ihrer Prognosewerte verwenden möchten.

   1. Wählen Sie unter **Zeitstempelspalte** die Spalte mit Zeitstempeln (im Datetime-Format) aus. Weitere Informationen zu den akzeptierten Datetime-Formaten finden Sie unter [Zeitreihenprognosen in Amazon SageMaker Canvas](canvas-time-series.md).

   1. Geben Sie für das Feld **Prognoselänge** den Zeitraum ein, für den Sie Werte prognostizieren möchten. Canvas erkennt automatisch die Zeiteinheiten in Ihren Daten.

   1. (Optional) Aktivieren Sie den Schalter **Feiertagsplan verwenden**, um einen Feiertagsplan aus verschiedenen Ländern auszuwählen und Ihre Prognosen anhand von Feiertagsdaten genauer zu gestalten.

1. Im Feld **Modell konfigurieren** gibt es im Abschnitt **Erweitert** zusätzliche Einstellungen. Weitere Informationen zu den einzelnen erweiterten Einstellungen finden Sie unter [Erweiterte Konfigurationen für die Modellerstellung](canvas-advanced-settings.md). Um die **erweiterten** Einstellungen zu konfigurieren, gehen Sie wie folgt vor:

   1. Wählen Sie im Dropdown-Menü **Zielmetrik** die Metrik aus, die Canvas bei der Erstellung Ihres Modells optimieren soll. Wenn Sie keine Metrik auswählen, wählt Canvas standardmäßig eine für Sie aus. Beschreibungen der verfügbaren Metriken finden Sie unter [Referenz zu den Metriken](canvas-metrics.md).

   1. Wenn Sie einen Standard-Build ausführen, wird der Abschnitt **Algorithmen** angezeigt. In diesem Abschnitt wählen Sie die Algorithmen für die Zeitreihenprognose aus, die Sie für die Erstellung Ihres Modells verwenden möchten. Sie können eine Teilmenge der verfügbaren Algorithmen auswählen oder Sie können alle auswählen, wenn Sie sich nicht sicher sind, welche Sie ausprobieren sollen.

      Wenn Sie Ihren Standard-Build ausführen, erstellt Canvas ein Ensemble-Modell, das alle Algorithmen miteinander kombiniert, um die Vorhersagegenauigkeit zu optimieren.
**Anmerkung**  
Wenn Sie einen Quick-Build ausführen, verwendet Canvas einen einzigen baumbasierten Lernalgorithmus, um Ihr Modell zu trainieren, und Sie müssen keine Algorithmen auswählen.

   1. Geben Sie für **Prognosequantile** bis zu 5 durch Kommas getrennte Quantilwerte ein, um die Ober- und Untergrenzen Ihrer Vorhersage festzulegen.

   1. Nachdem Sie die **erweiterten** Einstellungen konfiguriert haben, wählen Sie **Speichern** aus.

1. Wählen Sie Spalten in Ihren Daten aus oder deaktivieren Sie sie, um sie in Ihren Build aufzunehmen oder daraus zu entfernen.
**Anmerkung**  
Wenn Sie mit Ihrem Modell nach der Erstellung Batch-Vorhersagen treffen, fügt Canvas Ihren Prognoseergebnissen gelöschte Spalten hinzu. Canvas fügt die gelöschten Spalten jedoch nicht zu Ihren Batch-Vorhersagen für Zeitreihenmodelle hinzu.

1. (Optional) Verwenden Sie die von Canvas bereitgestellten Visualisierungs- und Analysetools, um Ihre Daten zu visualisieren und zu bestimmen, welche Funktionen Sie möglicherweise in Ihr Modell aufnehmen möchten. Weitere Informationen finden Sie unter [Erkunden und Analysieren Ihrer Daten](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html).

1. (Optional) Verwenden Sie Datentransformationen, um Ihre Daten zu bereinigen, zu transformieren und für die Modellerstellung vorzubereiten. Weitere Informationen finden Sie unter [ Vorbereiten Ihrer Daten mit erweiterten Transformationen](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html). Sie können Ihre Transformationen anzeigen und entfernen, indem Sie **Modellrezept** wählen, um den Seitenbereich **Modellrezept** zu öffnen.

1. (Optional) Weitere Funktionen wie die Vorschau der Genauigkeit Ihres Modells, die Validierung Ihres Datensatzes und die Änderung der Größe der Zufallsstichprobe, die Canvas Ihrem Datensatz entnimmt, finden Sie unter [Zeigen Sie eine Vorschau Ihres Modells an](canvas-preview-model.md).

1. Nachdem Sie Ihre Daten überprüft und Änderungen an Ihrem Datensatz vorgenommen haben, wählen Sie **Schnellaufbau** oder **Standardaufbau**, um mit dem Build für Ihr Modell zu beginnen.

Nachdem Ihr Modell mit der Erstellung begonnen hat, können Sie die Seite verlassen. Wenn das Modell auf der Seite **Meine Modelle** als **Bereit** angezeigt wird, ist es bereit für Analysen und Vorhersagen.

# Erweiterte Konfigurationen für die Modellerstellung
<a name="canvas-advanced-settings"></a>

Amazon SageMaker Canvas unterstützt verschiedene erweiterte Einstellungen, die Sie beim Erstellen eines Modells konfigurieren können. Auf der folgenden Seite sind alle erweiterten Einstellungen zusammen mit zusätzlichen Informationen zu ihren Optionen und Konfigurationen aufgeführt.

**Anmerkung**  
Die folgenden erweiterten Einstellungen werden derzeit nur für numerische, kategoriale und Zeitreihenprognosemodelle unterstützt.

## Erweiterte Einstellungen für numerische und kategoriale Vorhersagemodelle
<a name="canvas-advanced-settings-predictive"></a>

Canvas unterstützt die folgenden erweiterten Einstellungen für numerische und kategoriale Vorhersagemodelltypen.

### Zielmetrik
<a name="canvas-advanced-settings-predictive-obj-metric"></a>

Die Zielmetrik ist die Metrik, die Canvas beim Erstellen Ihres Modells optimieren soll. Wenn Sie keine Metrik auswählen, wählt Canvas standardmäßig eine für Sie aus. Beschreibungen der verfügbaren Metriken finden Sie unter [Referenz zu den Metriken](canvas-metrics.md).

### Trainingsmethode
<a name="canvas-advanced-settings-predictive-method"></a>

Canvas kann anhand der Datensatzgröße die Trainingsmethode automatisch auswählen oder Sie können sie manuell auswählen. Die folgenden Trainingsmethoden stehen Ihnen zur Auswahl:
+ **Ensembling** — SageMaker KI nutzt die AutoGluon Bibliothek, um mehrere Basismodelle zu trainieren. Um die optimale Kombination für Ihren Datensatz zu finden, führt der Ensemble-Modus 5–10 Versuche mit unterschiedlichen Modell- und Metaparametereinstellungen durch. Anschließend werden diese Modelle mithilfe einer Stacking-Ensemble-Methode kombiniert, um ein optimales Vorhersagemodell zu erstellen. Eine Liste der Algorithmen, die vom Ensemble-Modus für tabellarische Daten unterstützt werden, finden Sie im folgenden [Algorithmen](#canvas-advanced-settings-predictive-algos)-Abschnitt.
+ **Hyperparameter-Optimierung (HPO)** — SageMaker KI findet die beste Version eines Modells, indem sie Hyperparameter mithilfe der Bayesschen Optimierung oder der Multi-Fidelity-Optimierung optimiert und gleichzeitig Trainingsaufgaben an Ihrem Datensatz ausführt. Der HPO-Modus wählt die Algorithmen aus, die für Ihren Datensatz am ehesten relevant sind, und wählt den optimalen Bereich für die Hyperparameter für die Optimierung Ihrer Modelle aus. Zur Optimierung Ihrer Modelle führt der HPO-Modus bis zu 100 Versuche durch (Standard), um die optimalen Einstellungen für die Hyperparameter innerhalb des ausgewählten Bereichs zu finden. Wenn Ihre Datensatzgröße weniger als 100 MB beträgt, verwendet KI die Bayessche Optimierung. SageMaker SageMaker KI entscheidet sich für die Multi-Fidelity-Optimierung, wenn Ihr Datensatz größer als 100 MB ist.

  Eine Liste der Algorithmen, die vom HPO-Modus für tabellarische Daten unterstützt werden, finden Sie im folgenden [Algorithmen](#canvas-advanced-settings-predictive-algos)-Abschnitt.
+ **Automatisch** — SageMaker KI wählt je nach Größe Ihres Datensatzes automatisch entweder den Ensembling-Modus oder den HPO-Modus. Wenn Ihr Datensatz größer als 100 MB ist, wählt SageMaker AI den HPO-Modus. Andernfalls wählt er den Ensembling-Modus.

### Algorithmen
<a name="canvas-advanced-settings-predictive-algos"></a>

Im **Ensembling**-Modus unterstützt Autopilot die folgenden Algorithmen für Machine Learning:
+ [LightGBM](https://docs.aws.amazon.com/sagemaker/latest/dg/lightgbm.html) – Ein optimiertes Framework, das Baumalgorithmen mit Gradientenverstärkung nutzt. Dieser Algorithmus verwendet Bäume, die eher in die Breite als in die Tiefe wachsen, und ist in hohem Maße auf Geschwindigkeit optimiert.
+ [CatBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/catboost.html)— Ein Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet. Es ist für den Umgang mit kategorischen Variablen optimiert.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— Ein Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet, die eher an Tiefe als an Breite zunehmen.
+ [Random Forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) – Ein Baumalgorithmus, der mehrere Entscheidungsbäume für zufällige Teilstichproben der Daten verwendet und ersetzt. Die Bäume werden auf jeder Ebene in optimale Knoten aufgeteilt. Die Entscheidungen der einzelnen Bäume werden zusammen gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern.
+ [Extra Trees](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier) – Ein Baumalgorithmus, der für den gesamten Datensatz mehrere Entscheidungsbäume verwendet. Die Bäume werden auf jeder Ebene nach dem Zufallsprinzip aufgeteilt. Die Entscheidungen der einzelnen Bäume werden gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern. Zusätzliche Bäume sorgen im Vergleich zum Random-Forest-Algorithmus für ein gewisses Maß an Randomisierung.
+ [Lineare Modelle](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model) – Ein Framework, das die Beziehung zwischen zwei Variablen in den beobachteten Daten mit Hilfe einer linearen Gleichung modelliert.
+ Neural Network Torch – Ein Modell für ein neuronales Netzwerk, das mit [Pytorch](https://pytorch.org/) implementiert wird.
+ Neural Network fast.ai – Ein Modell für ein neuronales Netzwerk, das mit [fast.ai](https://www.fast.ai/) implementiert wird.

Im **HPO**-Modus unterstützt Canvas die folgenden Algorithmen für Machine Learning:
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— Ein Algorithmus für überwachtes Lernen, der versucht, eine Zielvariable genau vorherzusagen, indem er ein Ensemble von Schätzungen aus einer Reihe einfacherer und schwächerer Modelle kombiniert.
+ Deep-Learning-Algorithmus – Ein künstliches neuronales Netzwerk mit mehrschichtigem Perceptron (MLP) und Feedforward. Dieser Algorithmus kann Daten verarbeiten, die nicht linear trennbar sind.

### Datenteilung
<a name="canvas-advanced-settings-predictive-split"></a>

Sie haben die Möglichkeit, festzulegen, wie Sie Ihren Datensatz zwischen dem Trainingssatz (dem Teil Ihres Datensatzes, der zum Erstellen des Modells verwendet wird) und dem Validierungssatz (dem Teil Ihres Datensatzes, der zum Überprüfen der Genauigkeit des Modells verwendet wird) aufteilen möchten. Ein gängiges Aufteilungsverhältnis ist beispielsweise 80 % Training und 20 % Validierung, wobei 80 % Ihrer Daten zum Aufbau des Modells verwendet werden, während 20 % für die Messung der Modellleistung gespeichert werden. Wenn Sie kein benutzerdefiniertes Verhältnis angeben, teilt Canvas Ihren Datensatz automatisch auf.

### Max. Kandidaten
<a name="canvas-advanced-settings-predictive-candidates"></a>

**Anmerkung**  
Diese Feature ist ausschließlich im HPO-Trainingsmodus verfügbar.

Sie können die maximale Anzahl von Modellkandidaten angeben, die Canvas beim Erstellen Ihres Modells generiert. Wir empfehlen Ihnen, die Standardanzahl von Kandidaten (100) zu verwenden, um möglichst genaue Modelle zu erstellen. Die maximale Anzahl, die Sie angeben können, ist 250. Eine Verringerung der Anzahl der Modellkandidaten kann sich auf die Genauigkeit Ihres Modells auswirken.

### Max. Auftragslaufzeit
<a name="canvas-advanced-settings-predictive-runtime"></a>

Sie können die maximale Auftragslaufzeit oder die maximale Zeit festlegen, die Canvas für die Erstellung Ihres Modells benötigt. Nach Ablauf des Zeitlimits beendet Canvas die Erstellung und wählt den besten Modellkandidaten aus.

Die maximale Zeit, die Sie angeben können, beträgt 720 Stunden. Es wird dringend empfohlen, die maximale Auftragslaufzeit auf mehr als 30 Minuten festzulegen, um sicherzustellen, dass Canvas genügend Zeit hat, Modellkandidaten zu generieren und die Erstellung Ihres Modells abzuschließen.

## Erweiterte Einstellungen für Zeitreihen-Prognosemodelle
<a name="canvas-advanced-settings-time-series"></a>

Für Zeitreihen-Prognosemodelle unterstützt Canvas die Objective-Metrik, die im vorherigen Abschnitt aufgeführt ist.

Zeitreihen-Prognosemodelle unterstützen auch die folgenden erweiterten Einstellungen:

### Algorithmusauswahl
<a name="canvas-advanced-settings-time-series-algos"></a>

Wenn Sie ein Zeitreihen-Prognosemodell erstellen, verwendet Canvas ein *Ensemble* (oder eine Kombination) aus statistischen und Machine-Learning-Lernalgorithmen, um äußert genaue Zeitreihenprognosen zu liefern. Standardmäßig wählt Canvas die optimale Kombination aller verfügbaren Algorithmen auf der Grundlage der Zeitreihen in Ihrem Datensatz aus. Sie haben jedoch die Möglichkeit, einen oder mehrere Algorithmen anzugeben, die für Ihr Prognosemodell verwendet werden sollen. In diesem Fall bestimmt Canvas die beste Mischung nur anhand der von Ihnen ausgewählten Algorithmen. Wenn Sie sich nicht sicher sind, welchen Algorithmus Sie für das Training Ihres Modells auswählen sollen, empfehlen wir Ihnen, alle verfügbaren Algorithmen auszuwählen.

**Anmerkung**  
Die Auswahl des Algorithmus wird nur für Standard-Builds unterstützt. Wenn Sie in den erweiterten Einstellungen keine Algorithmen auswählen, führt SageMaker KI standardmäßig einen Schnellaufbau durch und trainiert Modellkandidaten mithilfe eines einzigen baumbasierten Lernalgorithmus. Weitere Informationen zum Unterschied zwischen Quick-Builds und Standard-Builds finden Sie unter [So funktionieren benutzerdefinierte Modelle](canvas-build-model.md).

Canvas unterstützt die folgenden Algorithmen für Zeitreihenprognosen:
+ [Autoregressive Integrated Moving Average (ARIMA)](https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average) – ein einfaches stochastisches Zeitreihenmodell, das statistische Analysen zur Interpretation der Daten und zur Erstellung von Zukunftsprognosen verwendet. Dieser Algorithmus ist nützlich für einfache Datensätze mit weniger als 100 Zeitreihen.
+ [Convolutional Neural Network – Quantile Regression (CNN-QR)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-algo-cnnqr.html) – ein proprietärer, überwachter Lernalgorithmus, der ein globales Modell aus einer großen Sammlung von Zeitreihen trainiert und einen Quantil-Decoder verwendet, um Vorhersagen zu treffen. CNN-QR eignet sich am besten für große Datensätze, die Hunderte von Zeitreihen enthalten.
+ [DeePar\$1](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-deeparplus.html) — Ein proprietärer, überwachter Lernalgorithmus zur Prognose skalarer Zeitreihen unter Verwendung rekurrenter neuronaler Netze (RNNs), um ein einzelnes Modell gemeinsam über alle Zeitreihen zu trainieren. DeepAR\$1 funktioniert am besten mit umfangreichen Datensätzen, die Hunderte von Feature-Zeitreihen enthalten.
+ [Non-Parametric Time Series (NPTS)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-npts.html) – ein skalierbares, probabilistisches Basisprognosemodell, das die zukünftige Wertverteilung einer bestimmten Zeitreihe durch Stichproben aus vergangenen Beobachtungen vorhersagt. NPTS ist nützlich bei der Arbeit mit spärlichen oder intermittierenden Zeitreihen (z. B. bei der Prognose der Nachfrage nach einzelnen Artikeln, bei denen die Zeitreihe viele Nullen oder niedrige Werte aufweist).
+ [Exponential Smoothing (ETS)](https://en.wikipedia.org/wiki/Exponential_smoothing) – eine Prognosemethode, die Prognosen erstellt, die gewichtete Durchschnittswerte vergangener Beobachtungen sind, wobei die Gewichtung älterer Beobachtungen exponentiell abnimmt. Der Algorithmus eignet sich für einfache Datensätze mit weniger als 100 Zeitreihen und Datensätze mit saisonalen Mustern.
+ [Prophet](https://facebook.github.io/prophet/) – ein additives Regressionsmodell, das am besten bei Zeitreihen mit starken saisonalen Effekten und mehreren Saisons historischer Daten funktioniert. Der Algorithmus ist nützlich für Datensätze mit nichtlinearen Wachstumstrends, die sich einem Grenzwert nähern.

### Prognosequantile
<a name="canvas-advanced-settings-time-series-quantiles"></a>

Für Zeitreihenprognosen trainiert SageMaker KI 6 Modellkandidaten anhand Ihrer Zielzeitreihen. Anschließend kombiniert SageMaker KI diese Modelle mithilfe einer Stacking-Ensemble-Methode, um ein optimales Prognosemodell für eine bestimmte Zielmetrik zu erstellen. Jedes Prognosemodell erstellt eine probabilistische Prognose, indem es Prognosen in Quantilen zwischen P1 und P99 erstellt. Mit Hilfe dieser Quantile wird der Prognoseunsicherheit Rechnung getragen. Standardmäßig werden Prognosen für 0,1 (`p10`), 0,5 (`p50`) und 0,9 (`p90`) erzeugt. Sie können bis zu fünf Ihrer eigenen Quantile zwischen 0,01 (`p1`) und 0,99 (`p99`) in Schritten von 0,01 oder höher angeben.

# Bearbeiten Sie einen Bilddatensatz
<a name="canvas-edit-image"></a>

In Amazon SageMaker Canvas können Sie Ihre Bilddatensätze bearbeiten und Ihre Beschriftungen überprüfen, bevor Sie ein Modell erstellen. Möglicherweise möchten Sie Aufgaben wie das Zuweisen von Beschriftungen zu Bildern ohne Beschriftung oder das Hinzufügen weiterer Bilder zum Datensatz ausführen. Diese Aufgaben können alle in der Canvas-Anwendung ausgeführt werden, sodass Sie Ihren Datensatz an einem Ort ändern und ein Modell erstellen können.

**Anmerkung**  
Bevor Sie ein Modell erstellen, müssen Sie allen Bildern in Ihrem Datensatz Beschriftungen zuweisen. Außerdem müssen Sie mindestens 25 Bilder pro Beschriftung und mindestens zwei Beschriftungen haben. Weitere Informationen zum Zuweisen von Beschriftungen finden Sie im Abschnitt **Zuweisen von Beschriftungen zu Bildern ohne Beschriftung** auf dieser Seite. Wenn Sie keine Beschriftung für ein Bild ermitteln können, sollten Sie es aus Ihrem Datensatz löschen. Weitere Informationen zum Löschen von Bildern in diesem, finden Sie im Abschnitt unter [Bilder zum Datensatz hinzufügen oder daraus löschen](#canvas-edit-image-add-delete).

Um mit der Bearbeitung Ihres Bilddatensatzes zu beginnen, sollten Sie sich während der Erstellung Ihres Bildvorhersagemodells mit nur einer Bezeichnung auf der Registerkarte **Erstellen** befinden.

Eine neue Seite wird geöffnet, auf der die Bilder in Ihrem Datensatz zusammen mit ihren Beschriftungen angezeigt werden. Auf dieser Seite wird Ihr Bilddatensatz in **Bilder insgesamt**, **Beschriftete Bilder** und **Nicht beschriftete Bilder** unterteilt. Best Practices zur Erstellung eines genaueren Bildvorhersagemodells finden Sie auch im **Leitfaden zur Datensatzvorbereitung**.

Der folgende Screenshot zeigt die Seite zur Bearbeitung Ihres Bilddatensatzes.

![\[Screenshot der Seite zur Verwaltung von Bilddatensätzen in Canvas.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/dataset-management-page.png)


Auf dieser Seite können Sie die folgenden Aktionen ausführen.

## Sehen Sie sich die Eigenschaften für jedes Bild an (Beschriftung, Größe, Abmessungen)
<a name="canvas-edit-image-view"></a>

Um ein einzelnes Bild anzusehen, können Sie in der Suchleiste anhand des Dateinamens danach suchen. Wählen Sie dann das Bild aus, um die Vollansicht zu öffnen. Sie können die Bildeigenschaften anzeigen und dem Bild die Beschriftung neu zuweisen. Wählen Sie **Speichern**, wenn Sie das Bild ansehen.

## Hinzufügen, Umbenennen oder Löschen von Beschriftungen im Datensatz
<a name="canvas-edit-image-labels"></a>

Canvas listet die Beschriftungen für Ihren Datensatz im linken Navigationsbereich auf. Sie können dem Datensatz neue Beschriftungen hinzufügen, indem Sie eine Bezeichnung in das Textfeld **Bezeichnung hinzufügen** eingeben.

Um eine Beschriftung aus Ihrem Datensatz umzubenennen oder zu löschen, wählen Sie das Symbol **Weitere Optionen** (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)) neben der Beschriftung aus und wählen Sie entweder **Umbenennen** oder **Löschen** aus. Wenn Sie die Beschriftung umbenennen, können Sie den neuen Beschrfiftungsnamen eingeben und **Bestätigen** wählen. Wenn Sie die Beschriftung löschen, wird die Beschriftung aus allen Bildern in Ihrem Datensatz entfernt, die diese Beschriftung haben. Alle Bilder mit dieser Beschriftung werden nicht beschriftet.

## Weisen Sie Bildern ohne Beschriftung Beschriftungen zu
<a name="canvas-edit-image-assign"></a>

Um die unbeschrifteten Bilder in Ihrem Datensatz anzuzeigen, wählen Sie im linken Navigationsbereich **Unbeschriftet** aus. Wählen Sie jedes Bild aus und öffnen Sie die Beschriftung mit dem Titel **Unbeschriftet**. Wählen Sie dann aus der Dropdown-Liste eine Beschriftung aus, das dem Bild zugewiesen werden soll. Sie können auch mehr als ein Bild auswählen und diese Aktion ausführen. Allen ausgewählten Bildern wird dann die von Ihnen gewählte Beschriftung zugewiesen.

## Ordnen Sie Bildern Beschriftungen neu zu
<a name="canvas-edit-image-reassign"></a>

Sie können Bildern Beschriftungen neu zuweisen, indem Sie das Bild (oder mehrere Bilder gleichzeitig) auswählen und das Dropdown-Menü mit der aktuellen Beschriftung öffnen. Wählen Sie die gewünschte Beschriftung aus, und das Bild oder die Bilder werden mit der neuen Beschriftung aktualisiert.

## Sortieren Sie Ihre Bilder nach Beschriftung
<a name="canvas-edit-image-sort"></a>

Sie können alle Bilder für eine bestimmte Beschriftung anzeigen, indem Sie die Beschriftung im linken Navigationsbereich auswählen.

## Bilder zum Datensatz hinzufügen oder daraus löschen
<a name="canvas-edit-image-add-delete"></a>

Sie können Ihrem Datensatz weitere Bilder hinzufügen, indem Sie im oberen Navigationsbereich **Bilder hinzufügen** auswählen. Sie werden durch den Arbeitsablauf zum Importieren weiterer Bilder geführt. Die Bilder, die Sie importieren, werden Ihrem vorhandenen Datensatz hinzugefügt.

Sie können Bilder aus Ihrem Datensatz löschen, indem Sie sie auswählen und dann im oberen Navigationsbereich auf **Löschen** klicken.

**Anmerkung**  
Nachdem Sie Änderungen an Ihrem Datensatz vorgenommen haben, wählen Sie **Datensatz speichern**, um sicherzustellen, dass Ihre Änderungen nicht verloren gehen.

# Datenexploration und Analyse
<a name="canvas-explore-data"></a>

**Anmerkung**  
Sie können SageMaker Canvas-Visualisierungen und -Analysen nur für Modelle verwenden, die auf tabellarischen Datensätzen basieren. Textvorhersagemodelle mit mehreren Kategorien sind ebenfalls ausgeschlossen.

In Amazon SageMaker Canvas können Sie die Variablen in Ihrem Datensatz mithilfe von Visualisierungen und Analysen untersuchen und anwendungsinterne Visualisierungen und Analysen erstellen. Sie können diese Untersuchungen verwenden, um Beschriftungen zwischen Ihren Variablen aufzudecken, bevor Sie Ihr Modell erstellen.

Weitere Informationen zu Visualisierungstechniken in Canvas finden Sie unter [Erkunden Ihrer Daten mit Visualisierungstechniken](canvas-explore-data-visualization.md).

Weitere Informationen zu Analytics in Canvas finden Sie unter [Erkunden Ihrer Daten mit Analytik](canvas-explore-data-analytics.md).

# Erkunden Ihrer Daten mit Visualisierungstechniken
<a name="canvas-explore-data-visualization"></a>

**Anmerkung**  
Sie können SageMaker Canvas-Visualisierungen nur für Modelle verwenden, die auf tabellarischen Datensätzen basieren. Textvorhersagemodelle mit mehreren Kategorien sind ebenfalls ausgeschlossen.

Mit Amazon SageMaker Canvas können Sie Ihre Daten untersuchen und visualisieren, um erweiterte Einblicke in Ihre Daten zu gewinnen, bevor Sie Ihre ML-Modelle erstellen. Sie können mithilfe von Streudiagrammen, Balkendiagrammen und Boxplots visualisieren, was Ihnen helfen kann, Ihre Daten zu verstehen und die Beziehungen zwischen Features zu ermitteln, die sich auf die Modellgenauigkeit auswirken könnten.

Wählen Sie auf der Registerkarte **Erstellen** der SageMaker Canvas-Anwendung **Data Visualizer** aus, um mit der Erstellung Ihrer Visualisierungen zu beginnen.

Sie können die Stichprobengröße der Visualisierung ändern, um die Größe der Zufallsstichprobe aus Ihrem Datensatz anzupassen. Ein zu großer Stichprobenumfang kann sich auf die Leistung Ihrer Datenvisualisierungen auswirken. Wir empfehlen Ihnen daher, einen geeigneten Stichprobenumfang zu wählen. Um die Stichprobengröße zu ändern, führen Sie die folgenden Schritte aus.

1. Wählen Sie **Visualisierungsbeispiel** aus.

1. Verwenden Sie den Schieberegler, um die gewünschte Stichprobengröße auszuwählen.

1. Wählen Sie **Aktualisieren**, um die Änderung Ihrer Stichprobengröße zu bestätigen.

**Anmerkung**  
Bestimmte Visualisierungstechniken erfordern Spalten eines bestimmten Datentyps. Beispielsweise können Sie numerische Spalten nur für die X- und Y-Achsen von Streudiagrammen verwenden.

## Streudiagramm
<a name="canvas-explore-data-scatterplot"></a>

Um mit Ihrem Datensatz ein Streudiagramm zu erstellen, wählen Sie im Bedienfeld **Visualisierung** die Option **Streudiagramm**. Wählen Sie im Abschnitt **Spalten** die Features aus, die Sie auf der X- und Y-Achse zeichnen möchten. Sie können die Spalten per Drag-and-Drop auf die Achsen ziehen oder, sobald eine Achse gelöscht wurde, eine Spalte aus der Liste der unterstützten Spalten auswählen.

Sie können **Farbe nach** verwenden, um die Datenpunkte im Diagramm mit einer dritten Featureseinzufärben. Sie können auch **Gruppieren nach** verwenden, um die Daten auf der Grundlage eines vierten Features in separate Diagramme zu gruppieren.

Die folgende Abbildung zeigt ein Streudiagramm, in dem **Farbe nach** und **Gruppieren nach** verwendet werden. In diesem Beispiel wird jeder Datenpunkt nach dem `MaritalStatus` Feature farbig dargestellt, und die Gruppierung nach dem `Department` Feature führt zu einem Streudiagramm für die Datenpunkte der einzelnen Abteilungen.

![\[Screenshot eines Streudiagramms in der Datenvisualisierer-Ansicht der Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-eda-scatter-plot.png)


## Balkendiagramm
<a name="canvas-explore-data-barchart"></a>

Um ein Balkendiagramm mit Ihrem Datensatz zu erstellen, wählen Sie im **Visualisierungsfenster** die Option **Balkendiagramm** aus. Wählen Sie im Abschnitt **Spalten** die Features aus, die Sie auf der X- und Y-Achse zeichnen möchten. Sie können die Spalten per Drag-and-Drop auf die Achsen ziehen oder, sobald eine Achse gelöscht wurde, eine Spalte aus der Liste der unterstützten Spalten auswählen.

Sie können **Gruppieren nach** verwenden, um das Balkendiagramm nach einer dritten Feature zu gruppieren. Sie können **Stack nach** verwenden, um jeden Balken auf der Grundlage der Einzelwerte eines vierten Features vertikal zu schattieren.

Die folgende Abbildung zeigt ein Balkendiagramm, das **Gruppieren nach** und **Stack nach** verwendet. In diesem Beispiel wird das Balkendiagramm nach dem `MaritalStatus` Feature gruppiert und nach dem `JobLevel` Feature gestapelt. Für jede `JobRole` auf der X-Achse gibt es einen eigenen Balken für die einzelnen Kategorien im `MaritalStatus` Feature, und jeder Balken wird vertikal nach dem `JobLevel` Feature gestapelt.

![\[Screenshot eines Balkendiagramms in der Datenvisualisierer-Ansicht der Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-eda-bar-chart.png)


## Boxplot
<a name="canvas-explore-data-boxplot"></a>

Um einen Boxplot mit Ihrem Datensatz zu erstellen, wählen Sie im **Visualisierungsfenster** die Option **Boxplot** aus. Wählen Sie im Abschnitt **Spalten** die Features aus, die Sie auf der X- und Y-Achse zeichnen möchten. Sie können die Spalten per Drag-and-Drop auf die Achsen ziehen oder, sobald eine Achse gelöscht wurde, eine Spalte aus der Liste der unterstützten Spalten auswählen.

Sie können **Gruppieren nach** verwenden, um die Boxplots nach einer dritten Feature zu gruppieren.

Die folgende Abbildung zeigt einen Boxplot, der **Gruppieren nach** verwendet. In diesem Beispiel zeigen die X- und Y-Achsen jeweils `JobLevel` und `JobSatisfaction`, die farbigen Boxplots sind nach dem `Department` Feature gruppiert.

![\[Screenshot eines Boxplots in der Datenvisualisierer-Ansicht der Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-eda-box-plot.png)


# Erkunden Ihrer Daten mit Analytik
<a name="canvas-explore-data-analytics"></a>

**Anmerkung**  
Sie können SageMaker Canvas-Analysen nur für Modelle verwenden, die auf tabellarischen Datensätzen basieren. Textvorhersagemodelle mit mehreren Kategorien sind ebenfalls ausgeschlossen.

Mit Analysen in Amazon SageMaker Canvas können Sie Ihren Datensatz untersuchen und Einblicke in all Ihre Variablen gewinnen, bevor Sie ein Modell erstellen. Sie können die Beziehungen zwischen Features in Ihrem Datensatz mithilfe von Korrelationsmatrizen bestimmen. Sie können diese Technik verwenden, um Ihren Datensatz in einer Matrix zusammenzufassen, die die Korrelationen zwischen zwei oder mehr Werten zeigt. Auf diese Weise können Sie Muster in einem bestimmten Datensatz für eine erweiterte Datenanalyse identifizieren und visualisieren.

In der Matrix wird die Korrelation zwischen den einzelnen Features als positiv, negativ oder neutral dargestellt. Möglicherweise möchten Sie beim Erstellen Ihres Modells Features einbeziehen, die eine hohe Korrelation zueinander aufweisen. Features, die wenig bis gar keine Korrelation aufweisen, sind für Ihr Modell möglicherweise irrelevant, und Sie können diese Features beim Erstellen Ihres Modells weglassen.

Informationen zu den ersten Schritten mit Korrelationsmatrizen in SageMaker Canvas finden Sie im folgenden Abschnitt.

## Erstellen Sie eine Korrelationsmatrix
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

Sie können eine Korrelationsmatrix erstellen, wenn Sie die Erstellung eines Modells auf der Registerkarte **Erstellen** der SageMaker Canvas-Anwendung vorbereiten.

Eine Anleitung, wie Sie mit der Erstellung eines Modells beginnen, finden Sie unter [Ein Modell erstellen](canvas-build-model-how-to.md).

Nachdem Sie mit der Vorbereitung eines Modells in der SageMaker Canvas-Anwendung begonnen haben, gehen Sie wie folgt vor:

1. Wählen Sie auf der Registerkarte **Erstellen** die Option **Datenvisualisierung** aus.

1. Wählen Sie dann **Analytics** aus.

1. Wählen Sie **Korrelationsmatrix**.

Sie sollten eine Visualisierung sehen, die dem folgenden Screenshot ähnelt. Sie zeigt bis zu 15 Spalten des Datensatzes, die in einer Korrelationsmatrix organisiert sind.

![\[Screenshot einer Korrelationsmatrix in der Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


Nachdem Sie die Korrelationsmatrix erstellt haben, können Sie sie folgendermaßen anpassen:

### 1. Wählen Sie Ihre Spalten
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

Für **Spalten** können Sie die Spalten auswählen, die Sie in die Matrix aufnehmen möchten. Sie können bis zu 15 Spalten aus Ihrem Datensatz vergleichen.

**Anmerkung**  
Sie können numerische, kategoriale oder binäre Spaltentypen für eine Korrelationsmatrix verwenden. Die Korrelationsmatrix unterstützt keine Spaltentypen für Datetime- oder Textdaten.

Um der Korrelationsmatrix Spalten hinzuzufügen oder aus ihr zu entfernen, wählen Sie Spalten im **Spalten**-Bedienfeld aus und deaktivieren Sie sie. Sie können Spalten auch direkt aus dem Bedienfeld in die Matrix ziehen und dort ablegen. Wenn Ihr Datensatz viele Spalten enthält, können Sie in der Leiste **Spalten durchsuchen** nach den gewünschten Spalten suchen.

Um die Spalten nach Datentyp zu filtern, wählen Sie die Dropdown-Liste aus und wählen Sie **Alle**, **Numerisch** oder **Kategorisch** aus. Wenn Sie **Alle** auswählen, werden Ihnen alle Spalten aus Ihrem Datensatz angezeigt, wohingegen die Filter **Numerisch** und **Kategorisch** nur die numerischen oder kategorialen Spalten in Ihrem Datensatz anzeigen. Beachten Sie, dass binäre Spaltentypen in den numerischen oder kategorialen Filtern enthalten sind.

Die besten Dateneinblicke erhalten Sie, wenn Sie Ihre Zielspalte in die Korrelationsmatrix aufnehmen. Wenn Sie Ihre Zielspalte in die Korrelationsmatrix aufnehmen, wird sie als letztes Feature in der Matrix mit einem Zielsymbol angezeigt.

### 2. Wählen Sie Ihren Korrelationstyp
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas unterstützt verschiedene *Korrelationstypen* oder Methoden zur Berechnung der Korrelation zwischen Ihren Spalten.

Um den Korrelationstyp zu ändern, verwenden Sie den im vorherigen Abschnitt erwähnten **Spaltenfilter**, um nach Ihrem gewünschten Spaltentyp und den gewünschten Spalten zu filtern. Sie sollten den **Korrelationstyp** im Seitenbereich sehen. Für numerische Vergleiche haben Sie die Möglichkeit, entweder **Pearson** oder **Spearman** auszuwählen. **Für kategoriale Vergleiche ist der Korrelationstyp auf MI festgelegt.** Für kategoriale und gemischte Vergleiche wird der Korrelationstyp auf **Spearman** & MI festgelegt.

Bei Matrizen, die nur numerische Spalten vergleichen, ist der Korrelationstyp entweder Pearson oder Spearman. Die Pearson-Messgröße bewertet die lineare Beziehung zwischen zwei kontinuierlichen Variablen. Das Spearman-Maß bewertet die monotone Beziehung zwischen zwei Variablen. Sowohl bei Pearson als auch bei Spearman reicht die Korrelationsskala von -1 bis 1, wobei jedes Ende der Skala auf eine perfekte Korrelation (eine direkte 1:1 -Beziehung) und 0 auf keine Korrelation hinweist. Möglicherweise möchten Sie Pearson auswählen, wenn Ihre Daten linearere Beziehungen aufweisen (wie eine [Streudiagrammvisualisierung](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot) zeigt). Wenn Ihre Daten nicht linear sind oder eine Mischung aus linearen und monotonen Beziehungen enthalten, sollten Sie Spearman auswählen.

Für Matrizen, die nur kategoriale Spalten vergleichen, ist der Korrelationstyp auf Mutual Information Classification (MI) festgelegt. Der MI-Wert ist ein Maß für die wechselseitige Abhängigkeit zwischen zwei Zufallsvariablen. Das MI-Maß liegt auf einer Skala von 0 bis 1, wobei 0 für keine Korrelation und 1 für eine perfekte Korrelation steht.

Bei Matrizen, die eine Mischung aus numerischen und kategorialen Spalten vergleichen, ist der Korrelationstyp **Spearman & MI** eine Kombination der Korrelationstypen Spearman und MI. Für Korrelationen zwischen zwei numerischen Spalten zeigt die Matrix den Spearman-Wert. Bei Korrelationen zwischen einer numerischen und einer kategorialen Spalte oder zwei kategorialen Spalten zeigt die Matrix den MI-Wert.

Denken Sie abschließend daran, dass Korrelation nicht unbedingt auf eine Kausalität hindeutet. Ein starker Korrelationswert weist nur darauf hin, dass ein Zusammenhang zwischen zwei Variablen besteht, aber die Variablen haben möglicherweise keinen kausalen Zusammenhang. Prüfen Sie die für Sie interessanten Spalten sorgfältig, um Verzerrungen bei der Modellerstellung zu vermeiden.

### 3. Ihre Korrelationen filtern
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

Im Seitenbereich können Sie die Funktion **Korrelationen filtern** verwenden, um nach dem Bereich von Korrelationswerten zu filtern, den Sie in die Matrix aufnehmen möchten. Wenn Sie beispielsweise nach Features filtern möchten, die nur eine positive oder neutrale Korrelation aufweisen, können Sie den **Minimalwert** auf 0 und den **Höchstwert** auf 1 festlegen (gültige Werte sind -1 bis 1).

Für Spearman- und Pearson-Vergleiche können Sie den **Korrelationsbereich des Filters** auf einen beliebigen Wert von -1 bis 1 festlegen, wobei 0 bedeutet, dass keine Korrelation besteht. -1 und 1 bedeuten, dass die Variablen eine starke negative bzw. positive Korrelation aufweisen.

Bei MI-Vergleichen reicht der Korrelationsbereich nur von 0 bis 1, wobei 0 bedeutet, dass keine Korrelation besteht und 1 bedeutet, dass die Variablen eine starke Korrelation aufweisen, entweder positiv oder negativ.

Jedes Feature hat eine perfekte Korrelation (1) mit sich selbst. Daher stellen Sie möglicherweise fest, dass die oberste Zeile der Korrelationsmatrix immer 1 ist. Wenn Sie diese Werte ausschließen möchten, können Sie den Filter verwenden, um den **Höchstwert** auf weniger als 1 festzulegen.

Denken Sie daran, dass, wenn Ihre Matrix eine Mischung aus numerischen und kategorialen Spalten vergleicht und den Korrelationstyp **Spearman & MI** verwendet, die *kategorialen x-numerischen* und *kategorialen x-kategorialen* Korrelationen (die das MI-Maß verwenden) auf einer Skala von 0 bis 1 liegen, wohingegen die *numerischen x-numerischen* Korrelationen (die das Spearman-Maß verwenden) auf einer Skala von -1 bis 1 liegen. Prüfen Sie Ihre interessierenden Korrelationen sorgfältig, um sicherzustellen, dass Sie den Korrelationstyp kennen, der zur Berechnung der einzelnen Werte verwendet wird.

### 4. Wählen Sie die Visualisierung-Methode aus.
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

Im Seitenbereich können Sie **Visualize by** verwenden, um die Visualisierungsmethode der Matrix zu ändern. Wählen Sie die Visualisierungsmethode **Numerisch** aus, um den Korrelationswert (Pearson, Spearman oder MI) anzuzeigen, oder wählen Sie die Visualisierungsmethode **Größe** aus, um die Korrelation mit unterschiedlich großen und farbigen Punkten darzustellen. Wenn Sie **Größe** wählen, können Sie den Mauszeiger über einen bestimmten Punkt in der Matrix bewegen, um den tatsächlichen Korrelationswert zu sehen.

### 5. Wählen Sie eine Farbpalette
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

Im Seitenbereich können Sie mithilfe der **Farbauswahl die Farbpalette** ändern, die für die Skala zwischen negativer und positiver Korrelation in der Matrix verwendet wird. Wählen Sie eine der alternativen Farbpaletten aus, um die in der Matrix verwendeten Farben zu ändern.

# Vorbereiten der Daten für die Modellerstellung
<a name="canvas-prepare-data"></a>

**Anmerkung**  
Mit Data Wrangler können Sie jetzt eine erweiterte Datenvorbereitung in SageMaker Canvas durchführen. Data Wrangler bietet Ihnen eine Benutzeroberfläche in natürlicher Sprache und über 300 integrierte Transformationen. Weitere Informationen finden Sie unter [Datenaufbereitung](canvas-data-prep.md).

Ihr Datensatz für Machine Learning erfordert möglicherweise eine Datenvorbereitung, bevor Sie Ihr Modell erstellen. Möglicherweise möchten Sie Ihre Daten aufgrund verschiedener Probleme bereinigen, zu denen auch fehlende Werte oder Ausreißer gehören können, und Feature-Engineering durchführen, um die Genauigkeit Ihres Modells zu verbessern. Amazon SageMaker Canvas bietet ML-Datentransformationen, mit denen Sie Ihre Daten bereinigen, transformieren und für die Modellerstellung vorbereiten können. Sie können diese Transformationen für Ihre Datensätze ohne Code verwenden. SageMaker Canvas fügt die von Ihnen verwendeten Transformationen dem **Model-Rezept** hinzu. Dabei handelt es sich um eine Aufzeichnung der Datenvorbereitung, die vor der Erstellung des Modells an Ihren Daten vorgenommen wurde. Alle Datentransformationen, die Sie verwenden, ändern nur die Eingabedaten für die Modellerstellung und ändern nicht Ihre ursprüngliche Datenquelle.

Die Vorschau Ihres Datensatzes zeigt die ersten 100 Zeilen des Datensatzes. Wenn Ihr Datensatz mehr als 20.000 Zeilen enthält, nimmt Canvas eine Zufallsstichprobe von 20.000 Zeilen und zeigt eine Vorschau der ersten 100 Zeilen aus dieser Stichprobe an. Sie können nur nach Werten aus den in der Vorschau angezeigten Zeilen suchen und diese angeben, und die Filterfunktion filtert nur die in der Vorschau angezeigten Zeilen und nicht den gesamten Datensatz.

Die folgenden Transformationen sind in SageMaker Canvas verfügbar, damit Sie Ihre Daten für die Erstellung vorbereiten können.

**Anmerkung**  
Sie können erweiterte Transformationen nur für Modelle verwenden, die auf tabellarischen Datensätzen basieren. Textvorhersagemodelle mit mehreren Kategorien sind ebenfalls ausgeschlossen.

## Spalten abwerfen
<a name="canvas-prepare-data-drop"></a>

Sie können eine Spalte aus Ihrem Modellbuild ausschließen, indem Sie sie auf der Registerkarte **Erstellen** der SageMaker Canvas-Anwendung ablegen. Deaktivieren Sie die Spalte, die Sie löschen möchten, und sie wird beim Erstellen des Modells nicht berücksichtigt.

**Anmerkung**  
Wenn Sie Spalten löschen und dann [Batch-Vorhersagen](canvas-make-predictions.md) mit Ihrem Modell treffen, fügt SageMaker Canvas die gelöschten Spalten wieder dem Ausgabedatensatz hinzu, der für Sie zum Herunterladen verfügbar ist. SageMaker Canvas fügt die gelöschten Spalten für Zeitreihenmodelle jedoch nicht wieder hinzu.

## Zeilen filtern
<a name="canvas-prepare-data-filter"></a>

Die Filterfunktion filtert die in der Vorschau angezeigten Zeilen (die ersten 100 Zeilen Ihres Datensatzes) gemäß den von Ihnen angegebenen Bedingungen. Das Filtern von Zeilen erzeugt eine temporäre Vorschau der Daten und hat keine Auswirkungen auf die Modellerstellung. Sie können filtern, um eine Vorschau von Zeilen anzuzeigen, die fehlende Werte enthalten, Ausreißer enthalten oder benutzerdefinierte Bedingungen in einer von Ihnen ausgewählten Spalte erfüllen.

### Filtern Sie Zeilen nach fehlenden Werten
<a name="canvas-prepare-data-filter-missing"></a>

Fehlende Werte treten häufig in maschinellen Lerndatensätzen auf. Wenn Sie Zeilen mit Nullwerten oder leeren Werten in bestimmten Spalten haben, möchten Sie möglicherweise nach diesen Zeilen filtern und eine Vorschau anzeigen.

Um fehlende Werte aus den in der Vorschau angezeigten Daten zu filtern, führen Sie die folgenden Schritte aus.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Nach Zeilen filtern** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)) aus.

1. Wählen Sie die **Spalte** aus, die Sie auf fehlende Werte überprüfen möchten.

1. Wählen Sie für die **Operation** die Option **Fehlt** aus.

SageMaker Canvas filtert nach Zeilen, die fehlende Werte in der ausgewählten **Spalte** enthalten, und bietet eine Vorschau der gefilterten Zeilen.

![\[Screenshot des Vorgangs „Filtern nach fehlenden Werten“ in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-filter-missing.png)


### Zeilen nach Ausreißern filtern
<a name="canvas-prepare-data-filter-outliers"></a>

Ausreißer oder seltene Werte in der Verteilung und im Bereich Ihrer Daten können sich negativ auf die Modellgenauigkeit auswirken und zu längeren Erstellungszeiten führen. SageMaker Mit Canvas können Sie Zeilen erkennen und filtern, die Ausreißer in numerischen Spalten enthalten. Sie können wählen, ob Sie Ausreißer entweder mit Standardabweichungen oder einem benutzerdefinierten Bereich definieren möchten.

Um nach Ausreißern in Ihren Daten zu filtern, führen Sie die folgenden Schritte aus.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Nach Zeilen filtern** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)) aus.

1. Wählen Sie die **Spalte** aus, die Sie auf Ausreißer überprüfen möchten.

1. Wählen Sie für die **Operation** **Ist ein Ausreißer**.

1. Stellen Sie den **Bereich für Ausreißer** entweder auf **Standardabweichung** oder **Benutzerdefinierter** Bereich ein.

1. Wenn Sie **Standardabweichung** wählen, geben Sie einen **SD-Wert** (Standardabweichung) zwischen 1–3 an. Wenn Sie **Benutzerdefinierter Bereich** wählen, wählen Sie entweder **Perzentil** oder **Zahl** und geben Sie dann die **Min** – und **Max** Werte an.

Mit der Option **Standardabweichung** werden Ausreißer in numerischen Spalten anhand des Mittelwerts und der Standardabweichung erkannt und danach gefiltert. Sie geben die Anzahl der Standardabweichungen an, bei denen ein Wert vom Mittelwert abweichen muss, um als Ausreißer betrachtet zu werden. Wenn Sie beispielsweise `3` für **SD** angeben, muss ein Wert um mehr als 3 Standardabweichungen vom Mittelwert abweichen, um als Ausreißer betrachtet zu werden.

Mit der Option **Benutzerdefinierter Bereich** werden Ausreißer in numerischen Spalten anhand von Minimal- und Maximalwerten erkannt und danach gefiltert. Verwenden Sie diese Methode, wenn Sie Ihre Schwellenwerte zur Begrenzung von Ausreißern kennen. Sie können den **Typ** des Bereichs entweder auf **Perzentil** oder **Zahl** festlegen. Wenn Sie **Perzentil** wählen, sollten die Werte **Min** und **Max** dem Minimum und Maximum des Perzentilbereichs (0-100) entsprechen, den Sie zulassen möchten. Wenn Sie **Zahl** wählen, sollten die **Min** – und **Max** Werte die minimalen und maximalen numerischen Werte sein, die Sie in den Daten filtern möchten.

![\[Bildschirmfoto des Vorgangs „Nach Ausreißern filtern“ in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-filter-outlier.png)


### Filtern Sie Zeilen nach benutzerdefinierten Werten
<a name="canvas-prepare-data-filter-custom"></a>

Sie können nach Zeilen mit Werten filtern, die benutzerdefinierte Bedingungen erfüllen. Möglicherweise möchten Sie eine Vorschau von Zeilen mit einem Preiswert von mehr als 100 anzeigen, bevor Sie sie entfernen. Mit dieser Funktion können Sie Zeilen filtern, die den von Ihnen festgelegten Schwellenwert überschreiten, und eine Vorschau der gefilterten Daten anzeigen.

Um die benutzerdefinierte Filterfunktion zu verwenden, führen Sie die folgenden Schritte aus.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Nach Zeilen filtern** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)) aus.

1. Wählen Sie die **Spalte** aus, die Sie überprüfen möchten.

1. Wählen Sie den **Operationstyp** aus, den Sie verwenden möchten, und geben Sie dann die Werte für die ausgewählte Bedingung an.

Für die **Operation** können Sie eine der folgenden Optionen wählen. Beachten Sie, dass die verfügbaren Operationen vom Datentyp der ausgewählten Spalte abhängen. Beispielsweise können Sie keine `is greater than` Operation für eine Spalte erstellen, die Textwerte enthält.


| Operation | Unterstützte Datentypen | Unterstützter Feature-Typ | Funktion | 
| --- | --- | --- | --- | 
|  ist gleich  |  Numerisch, Text  | Binär, kategorisch |  Filtert Zeilen, in denen der Wert in **Spalte** den von Ihnen angegebenen Werten entspricht.  | 
|  Ist nicht gleich  |  Numerisch, Text  | Binär, kategorisch |  Filtert Zeilen, in denen der Wert in **Spalte** nicht den von Ihnen angegebenen Werten entspricht.  | 
|  Ist kleiner als  |  Numerischer Wert  | – |  Filtert Zeilen, in denen der Wert in **Spalte** kleiner als der von Ihnen angegebene Wert ist.  | 
|  Ist kleiner als oder gleich  |  Numerischer Wert  | – |  Filtert Zeilen, in denen der Wert in **Spalte** kleiner oder gleich dem von Ihnen angegebenen Wert ist.  | 
|  Ist größer als  |  Numerischer Wert  | – |  Filtert Zeilen, in denen der Wert in **Spalte** größer als der von Ihnen angegebene Wert ist.  | 
|  Ist größer als oder gleich  |  Numerischer Wert  | – |  Filtert Zeilen, in denen der Wert in **Spalte** größer oder gleich dem von Ihnen angegebenen Wert ist.  | 
|  Ist zwischen  |  Numerischer Wert  | – |  Filtert Zeilen, in denen der Wert in **Spalte** zwischen oder gleich zwei von Ihnen angegebenen Werten liegt.  | 
|  Enthält  |  Text  | Kategorisch |  Filtert Zeilen, in denen der Wert in **Spalte** die von Ihnen angegebenen Werte enthält.  | 
|  Beginnt mit  |  Text  | Kategorisch |  Filtert Zeilen, in denen der Wert in **Spalte** mit einem von Ihnen angegebenen Wert beginnt.  | 
|  Endet mit  |  Kategorisch  | Kategorisch |  Filtert Zeilen, in denen der Wert in **Spalte** mit einem von Ihnen angegebenen Wert endet.  | 

Nachdem Sie den Filtervorgang festgelegt haben, aktualisiert SageMaker Canvas die Vorschau des Datensatzes, sodass Ihnen die gefilterten Daten angezeigt werden.

![\[Screenshot des Vorgangs „Filtern nach benutzerdefinierten Werten“ in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-filter-custom.png)


## Funktionen und Operatoren
<a name="canvas-prepare-data-custom-formula"></a>

Sie können mathematische Funktionen und Operatoren verwenden, um Ihre Daten zu untersuchen und zu verteilen. Sie können die von SageMaker Canvas unterstützten Funktionen verwenden oder Ihre eigene Formel mit Ihren vorhandenen Daten erstellen und eine neue Spalte mit dem Ergebnis der Formel erstellen. Sie können beispielsweise die entsprechenden Werte von zwei Spalten hinzufügen und das Ergebnis in einer neuen Spalte speichern.

Sie können Anweisungen verschachteln, um komplexere Funktionen zu erstellen. Im Folgenden finden Sie einige Beispiele für verschachtelte Funktionen, die Sie verwenden könnten.
+ Um den BMI zu berechnen, könnten Sie die Funktion `weight / (height ^ 2)` verwenden.
+ Um das Alter zu klassifizieren, könnten Sie die Funktion `Case(age < 18, 'child', age < 65, 'adult', 'senior')` verwenden.

Sie können Funktionen in der Datenvorbereitungsphase angeben, bevor Sie Ihr Modell erstellen. Um eine Funktion zu verwenden, gehen Sie wie folgt vor.
+ Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte „**Erstellen**“ die Option „**Alle anzeigen**“ und anschließend „**Benutzerdefinierte Formel**“, um das Bedienfeld „**Benutzerdefinierte Formel**“ zu öffnen.
+ Im Bedienfeld „**Benutzerdefinierte Formel**“ können Sie eine **Formel** auswählen, die Sie Ihrem **Modellrezept** hinzufügen möchten. Jede Formel wird auf alle Werte in den von Ihnen angegebenen Spalten angewendet. Verwenden Sie für Formeln, die zwei oder mehr Spalten als Argumente akzeptieren, Spalten mit übereinstimmenden Datentypen. Andernfalls erhalten Sie einen Fehler oder `null`-Werte in der neuen Spalte. 
+ Nachdem Sie eine **Formel** angegeben haben, fügen Sie im Feld „**Neuer Spaltenname“ einen Spaltennamen** hinzu. SageMaker Canvas verwendet diesen Namen für die neue Spalte, die erstellt wird.
+ (Optional) Wählen Sie **Vorschau**, um eine Vorschau Ihrer Transformation anzuzeigen.
+ Um die Funktion zu Ihrem **Modellrezept** hinzuzufügen, wählen Sie **Hinzufügen**.

SageMaker Canvas speichert das Ergebnis Ihrer Funktion in einer neuen Spalte unter dem Namen, den Sie unter **Neuer Spaltenname** angegeben haben. Sie können Funktionen im Bedienfeld **Modellrezepte** anzeigen oder entfernen.

SageMaker Canvas unterstützt die folgenden Operatoren für Funktionen. Sie können entweder das Textformat oder das Inline-Format verwenden, um Ihre Funktion zu spezifizieren.


| Operator | Description | Unterstützte Datentypen | Textformat | Inline-Format | 
| --- | --- | --- | --- | --- | 
|  Addition  |  Gibt die Summe der Werte  |  Numerischer Wert  | Addieren Sie (Umsatz1, Umsatz2) | Umsatz1 \$1 Umsatz2 | 
|  Subtraktion  |  Gibt den Unterschied zwischen den Werten zurück  |  Numerischer Wert  | Subtrahieren Sie (Umsatz1, Umsatz2) | Umsatz1 ‐ Umsatz2 | 
|  Multiply (Multiplikation)  |  Gibt das Produkt der Werte zurück  |  Numerischer Wert  | Multipliziere (Umsatz1, Umsatz2) | Umsatz1 \$1 Umsatz2 | 
|  Division  |  Gibt den Quotienten der Werte zurück  |  Numerischer Wert  | Divide (Umsatz1, Umsatz2) | Umsatz1//Umsatz2 | 
|  Mod  |  Gibt das Ergebnis des Modulo-Operators zurück (den Rest nach der Division der beiden Werte)  |  Numerischer Wert  | Mod (Umsatz1, Umsatz2) | Umsatz 1% Umsatz 2 | 
|  Abs  | Gibt den absoluten Wert des Wertes zurück |  Numerischer Wert  | Abs (Umsatz1) | – | 
|  Negiert  | Gibt das Negative des Werts zurück |  Numerischer Wert  | Negiere (c1) | -c1 | 
|  Exp  |  Gibt e (Eulersche Zahl) potenziert mit dem Wert zurück  |  Numerischer Wert  | Exp (Umsatz1) | – | 
|  Protokoll  |  Gibt den Logarithmus (Basis 10) des Wertes  |  Numerischer Wert  | Protokoll (Umsatz1) | – | 
|  Ln  |  Gibt den natürlichen Logarithmus (Basis e) des Werts zurück  |  Numerischer Wert  | Ln (Umsatz1) | – | 
|  pow  |  Gibt den potenzierten Wert zurück  |  Numerischer Wert  | Pow (Umsatz1, 2) | Umsatz1 ^ 2 | 
|  Wenn  |  Gibt basierend auf einer von Ihnen angegebenen Bedingung eine Bezeichnung „wahr“ oder „falsch“ zurück  |  Boolescher Wert, Numerisch, Text  | Wenn (sales1>7000, 'truelabel', 'falselabel') | – | 
|  Oder  |  Gibt einen booleschen Wert zurück, der angibt, ob einer der angegebenen Werte oder Bedingungen wahr ist oder nicht  |  Boolesch  | Oder (Vollpreis, discount) | Vollpreis \$1\$1 Rabatt | 
|  Bedingung 2  |  Gibt einen booleschen Wert zurück, der angibt, ob zwei der angegebenen Werte oder Bedingungen wahr sind oder nicht  |  Boolesch  | Und (Umsatz1, Umsatz2) | Umsatz1 && Umsatz2 | 
|  Nicht  |  Gibt einen booleschen Wert zurück, der das Gegenteil des angegebenen Werts oder der angegebenen Bedingungen darstellt  |  Boolesch  | Nicht (sales1) | \$1Umsatz 1 | 
|  Case  |  Gibt einen booleschen Wert zurück, der auf bedingten Anweisungen basiert (gibt c1 zurück, wenn cond1 wahr ist, gibt c2 zurück, wenn cond2 wahr ist, andernfalls wird c3 zurückgegeben)  |  Boolescher Wert, Numerisch, Text  | Groß- und Kleinschreibung (cond1, c1, cond2, c2, c3) | – | 
|  Gleich  |  Gibt einen booleschen Wert zurück, der angibt, ob zwei Werte gleich sind  |  Boolescher Wert, Numerisch, Text  | – | c1 = c2c1 == c2 | 
|  Ungleich  |  Gibt einen booleschen Wert zurück, der angibt, ob zwei Werte nicht gleich sind  |  Boolescher Wert, Numerisch, Text  | – | c1 \$1= c2 | 
|  Kleiner als  |  Gibt einen booleschen Wert zurück, der angibt, ob c1 kleiner als c2 ist  |  Boolescher Wert, Numerisch, Text  | – | c1 < c2 | 
|  Größer als  |  Gibt einen booleschen Wert zurück, der angibt, ob c1 größer als c2 ist  |  Boolescher Wert, Numerisch, Text  | – | c1 > c2 | 
|  Kleiner als oder gleich  |  Gibt einen booleschen Wert zurück, der angibt, ob c1 kleiner als oder gleich c2 ist  |  Boolescher Wert, Numerisch, Text  | – | c1 <= c2 | 
|  Größer als oder gleich  |  Gibt einen booleschen Wert zurück, der angibt, ob c1 größer als oder gleich c2 ist  |  Boolescher Wert, Numerisch, Text  | – | c1 >= c2 | 

SageMaker Canvas unterstützt auch Aggregatoperatoren, mit denen Operationen wie die Berechnung der Summe aller Werte oder das Ermitteln des Mindestwerts in einer Spalte ausgeführt werden können. Sie können Aggregatoperatoren in Kombination mit Standardoperatoren in Ihren Funktionen verwenden. Um beispielsweise die Differenz zwischen Werten und dem Mittelwert zu berechnen, könnten Sie die Funktion verwenden`Abs(height – avg(height))`. SageMaker Canvas unterstützt die folgenden Aggregatoperatoren.


| Aggregat-Operatoren | Description | Format | Beispiel | 
| --- | --- | --- | --- | 
|  sum  |  Gibt die Summe aller Werte in einer Spalte zurück  | sum | Summe(c1) | 
|  Minimum  |  Gibt den Minimalwert einer Spalte zurück  | min | min(c2) | 
|  Maximum  |  Gibt den Maximalwert einer Spalte zurück  | max | max(c3) | 
|  Durchschnitt  |  Gibt den Durchschnittswert einer Spalte zurück  | avg | avg(c4) | 
|  Std  | Gibt die Standardabweichung der Stichprobe einer Spalte zurück | Std | std(c1) | 
|  stddev  | Gibt die Standardabweichung der Werte in einer Spalte zurück | stddev | Stdabq(c1) | 
|  Varianz  | Gibt die unverzerrte Varianz der Werte in einer Spalte zurück | Varianz | Varianz(c1) | 
|  APPROX\$1COUNT\$1DISTINCT  | Gibt die ungefähre Anzahl verschiedener Elemente in einer Spalte zurück | APPROX\$1COUNT\$1DISTINCT | APPROX\$1COUNT\$1DISTINCT | 
|  count  | Gibt den Cosinus einer Zahl zurück. | count | Anzahl(c1) | 
|  Erste  |  Gibt den ersten Wert einer Spalte zurück  | Erste | zuerst(c1) | 
|  Letzte  |  Gibt den letzten Wert einer Spalte zurück  | Letzte | letzter(c1) | 
|  stddev\$1pop  | Gibt die Standardabweichung der Grundgesamtheit einer Spalte zurück | stddev\$1pop | stddev\$1pop(c1) | 
|  Varianz\$1Pop  |  Gibt die Populationsvarianz der Werte in einer Spalte zurück  | variance\$1pop | variance\$1pop(c1) | 

## Zeilen verwalten
<a name="canvas-prepare-data-manage"></a>

Mit der Transformation „Zeilen verwalten“ können Sie Datenzeilen sortieren, nach dem Zufallsprinzip mischen und Datenzeilen aus dem Datensatz entfernen.

### Zeilen sortieren
<a name="canvas-prepare-data-manage-sort"></a>

Gehen Sie wie folgt vor, um die Zeilen in einem Datensatz nach einer bestimmten Spalte zu sortieren.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Zeilen verwalten** und anschließend **Zeilen sortieren** aus.

1. Wählen Sie unter **Spalte sortieren** die Spalte aus, nach der Sie sortieren möchten.

1. Wählen Sie für **Sortierreihenfolge** entweder **Aufsteigend** oder **Absteigend** aus.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

### Zeilen mischen
<a name="canvas-prepare-data-manage-shuffle"></a>

Gehen Sie wie folgt vor, um die Zeilen in einem Datensatz nach dem Zufallsprinzip zu mischen.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Zeilen verwalten** und anschließend **Zeilen mischen** aus.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

### Doppelte Zeilen verwerfen
<a name="canvas-prepare-data-manage-drop-duplicate"></a>

Gehen Sie wie folgt vor, um doppelte Zeilen in einem Datensatz zu entfernen.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Zeilen verwalten** und anschließend **Doppelte Zeilen löschen** aus.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

### Entfernen Sie Zeilen nach fehlenden Werten
<a name="canvas-prepare-data-remove-missing"></a>

Fehlende Werte treten häufig in Datensätzen des maschinellen Lernens auf und können sich auf die Modellgenauigkeit auswirken. Verwenden Sie diese Transformation, wenn Sie Zeilen mit Nullwerten oder leeren Werten in bestimmten Spalten löschen möchten.

Gehen Sie wie folgt vor, um Zeilen zu entfernen, die fehlende Werte in einer bestimmten Spalte enthalten.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Zeilen verwalten** aus.

1. Wählen Sie **Zeilen nach fehlenden Werten löschen** aus.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

SageMaker Canvas löscht Zeilen, die fehlende Werte in der ausgewählten **Spalte** enthalten. Nach dem Entfernen der Zeilen aus dem Datensatz fügt SageMaker Canvas die Transformation im Abschnitt **Modellrezept** hinzu. Wenn Sie die Transformation aus dem Abschnitt **Modellrezept** entfernen, kehren die Zeilen zu Ihrem Datensatz zurück.

![\[Screenshot der Operation „Zeilen durch fehlende Werte entfernen“ in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-remove-missing.png)


### Zeilen nach Ausreißern entfernen
<a name="canvas-prepare-data-remove-outliers"></a>

Ausreißer oder seltene Werte in der Verteilung und im Bereich Ihrer Daten können sich negativ auf die Modellgenauigkeit auswirken und zu längeren Erstellungszeiten führen. Mit SageMaker Canvas können Sie Zeilen erkennen und entfernen, die Ausreißer in numerischen Spalten enthalten. Sie können wählen, ob Sie Ausreißer entweder mit Standardabweichungen oder einem benutzerdefinierten Bereich definieren möchten.

Gehen Sie wie folgt vor, um Ausreißer aus Ihren Daten zu entfernen.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Zeilen verwalten** aus.

1. Wählen Sie **Zeilen nach Ausreißerwerten löschen**.

1. Wählen Sie die **Spalte** aus, die Sie auf Ausreißer überprüfen möchten.

1. Stellen Sie den **Operator** auf **Standardabweichung**, **Benutzerdefinierter numerischer Bereich** oder **Benutzerdefinierter Quantilbereich** ein.

1. Wenn Sie **Standardabweichung** wählen, geben Sie einen Wert für **Standardabweichungen** (Standardabweichung) zwischen 1–3 an. Wenn Sie **Benutzerdefinierter numerischer Bereich** oder **Benutzerdefinierter Quantilbereich** wählen, geben Sie die **Min** und **Max** Werte an (Zahlen für numerische Bereiche oder Perzentile zwischen 0 und 100% für Quantilbereiche).

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

Mit der Option **Standardabweichung** werden Ausreißer in numerischen Spalten anhand des Mittelwerts und der Standardabweichung erkannt und entfernt. Sie geben die Anzahl der Standardabweichungen an, bei denen ein Wert vom Mittelwert abweichen muss, um als Ausreißer betrachtet zu werden. Wenn Sie beispielsweise `3` für **Standardabweichungen** angeben, muss ein Wert um mehr als 3 Standardabweichungen vom Mittelwert abweichen, um als Ausreißer betrachtet zu werden.

Mit den Optionen **Benutzerdefinierter numerischer Bereich** und **Benutzerdefinierter Quantilbereich** werden Ausreißer in numerischen Spalten anhand von Minimal- und Maximalwerten erkannt und entfernt. Verwenden Sie diese Methode, wenn Sie Ihre Schwellenwerte kennen, mit denen Ausreißer abgegrenzt werden. Wenn Sie einen numerischen Bereich wählen, sollten die **Min** – und **Max** Werte die minimalen und maximalen numerischen Werte sein, die Sie in den Daten zulassen möchten. Wenn Sie einen Quantilbereich wählen, sollten die **Min** und **Max** Werte den Mindest- und Höchstwerten des Perzentilbereichs (0–100) entsprechen, den Sie zulassen möchten.

Nach dem Entfernen der Zeilen aus dem Datensatz fügt SageMaker Canvas die Transformation im Abschnitt **Modellrezept** hinzu. Wenn Sie die Transformation aus dem Abschnitt **Modellrezept** entfernen, kehren die Zeilen zu Ihrem Datensatz zurück.

![\[Screenshot des Vorgangs „Zeilen nach Ausreißern entfernen“ in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-remove-outlier.png)


### Zeilen anhand benutzerdefinierter Werte entfernen
<a name="canvas-prepare-data-remove-custom"></a>

Sie können Zeilen mit Werten entfernen, die benutzerdefinierte Bedingungen erfüllen. Beispielsweise möchten Sie beim Erstellen Ihres Modells möglicherweise alle Zeilen mit einem Preiswert von mehr als 100 ausschließen. Mit dieser Transformation können Sie eine Regel erstellen, die alle Zeilen entfernt, die den von Ihnen festgelegten Schwellenwert überschreiten.

Gehen Sie wie folgt vor, um die benutzerdefinierte Transformation zum Entfernen zu verwenden.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Zeilen verwalten** aus.

1. Wählen Sie **Zeilen nach Formel löschen**.

1. Wählen Sie die **Spalte** aus, die Sie überprüfen möchten.

1. Wählen Sie den **Operationstyp** aus, den Sie verwenden möchten, und geben Sie dann die Werte für die ausgewählte Bedingung an.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

Für die **Operation** können Sie eine der folgenden Optionen wählen. Beachten Sie, dass die verfügbaren Operationen vom Datentyp der ausgewählten Spalte abhängen. Beispielsweise können Sie keine `is greater than` Operation für eine Spalte erstellen, die Textwerte enthält.


| Operation | Unterstützte Datentypen | Unterstützter Feature-Typ | Funktion | 
| --- | --- | --- | --- | 
|  ist gleich  |  Numerisch, Text  |  Binär, kategorisch  |  Entfernt Zeilen, in denen der Wert in **Spalte** den von Ihnen angegebenen Werten entspricht.  | 
|  Ist nicht gleich  |  Numerisch, Text  |  Binär, kategorisch  |  Entfernt Zeilen, in denen der Wert in **Spalte** nicht den von Ihnen angegebenen Werten entspricht.  | 
|  Ist kleiner als  |  Numerischer Wert  | – |  Entfernt Zeilen, in denen der Wert in **Spalte** kleiner als der von Ihnen angegebene Wert ist.  | 
|  Ist kleiner als oder gleich  |  Numerischer Wert  | – |  Entfernt Zeilen, in denen der Wert in **Spalte** kleiner oder gleich dem von Ihnen angegebenen Wert ist.  | 
|  Ist größer als  |  Numerischer Wert  | – |  Entfernt Zeilen, in denen der Wert in **Spalte** größer als der von Ihnen angegebene Wert ist.  | 
|  Ist größer als oder gleich  | Numerischer Wert | – |  Entfernt Zeilen, in denen der Wert in **Spalte** größer oder gleich dem von Ihnen angegebenen Wert ist.  | 
|  Ist zwischen  | Numerischer Wert | – |  Entfernt Zeilen, in denen der Wert in **Spalte** zwischen oder gleich zwei von Ihnen angegebenen Werten liegt.  | 
|  Enthält  |  Text  | Kategorisch |  Entfernt Zeilen, in denen der Wert in **Column** die von Ihnen angegebenen Werte enthält.  | 
|  Beginnt mit  |  Text  | Kategorisch |  Entfernt Zeilen, in denen der Wert in **Column** mit einem von Ihnen angegebenen Wert beginnt.  | 
|  Endet mit  |  Text  | Kategorisch |  Entfernt Zeilen, in denen der Wert in **Column** mit einem von Ihnen angegebenen Wert endet.  | 

Nach dem Entfernen der Zeilen aus dem Datensatz fügt SageMaker Canvas die Transformation im Abschnitt **Modellrezept** hinzu. Wenn Sie die Transformation aus dem Abschnitt **Modellrezept** entfernen, kehren die Zeilen zu Ihrem Datensatz zurück.

![\[Screenshot des Vorgangs „Zeilen mit benutzerdefinierten Werten entfernen“ in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-remove-custom.png)


## Spalten umbenennen
<a name="canvas-prepare-data-rename"></a>

Mit der Transformation zum Umbenennen von Spalten können Sie Spalten in Ihren Daten umbenennen. Wenn Sie eine Spalte umbenennen, ändert SageMaker Canvas den Spaltennamen in der Modelleingabe.

Sie können eine Spalte in Ihrem Datensatz umbenennen, indem Sie auf der Registerkarte **Erstellen** der SageMaker Canvas-Anwendung auf den Spaltennamen doppelklicken und einen neuen Namen eingeben. Durch Drücken der **Eingabetaste** wird die Änderung übermittelt, und wenn Sie auf eine beliebige Stelle außerhalb der Eingabe klicken, wird die Änderung rückgängig gemacht. Sie können eine Spalte auch umbenennen, indem Sie auf das Symbol **Weitere Optionen** (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)) klicken, das sich in der Listenansicht am Ende der Zeile oder in der Tabellenansicht am Ende der Kopfzeilenzelle befindet, und **Umbenennen** wählen.

Ihr Spaltenname darf nicht länger als 32 Zeichen sein oder doppelte Unterstriche (\$1\$1) enthalten, und Sie können eine Spalte nicht in denselben Namen wie eine andere Spalte umbenennen. Sie können eine gelöschte Spalte auch nicht umbenennen.

Der folgende Screenshot zeigt, wie Sie eine Spalte umbenennen, indem Sie auf den Spaltennamen doppelklicken.

![\[Screenshot des Umbenennens einer Spalte mit der Doppelklick-Methode in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-rename-column.png)


Wenn Sie eine Spalte umbenennen, fügt SageMaker Canvas die Transformation im Abschnitt **Modellrezept** hinzu. Wenn Sie die Transformation aus dem Abschnitt **Modellrezept** entfernen, nimmt die Spalte wieder ihren ursprünglichen Namen an.

## Spalten verwalten
<a name="canvas-prepare-data-manage-cols"></a>

Mit den folgenden Transformationen können Sie den Datentyp von Spalten ändern und fehlende Werte oder Ausreißer für bestimmte Spalten ersetzen. SageMaker Canvas verwendet beim Erstellen Ihres Modells die aktualisierten Datentypen oder Werte, ändert jedoch nicht Ihren ursprünglichen Datensatz. Beachten Sie, dass Sie Werte in dieser Spalte nicht ersetzen können, wenn Sie mithilfe der [Spalten abwerfen](#canvas-prepare-data-drop) Transformation eine Spalte aus Ihrem Datensatz gelöscht haben.

### Fehlende Werte ersetzen
<a name="canvas-prepare-data-replace-missing"></a>

Fehlende Werte treten häufig in Datensätzen des maschinellen Lernens auf und können sich auf die Modellgenauigkeit auswirken. Sie können sich dafür entscheiden, Zeilen mit fehlenden Werten zu löschen, aber Ihr Modell ist genauer, wenn Sie stattdessen die fehlenden Werte ersetzen. Mit dieser Transformation können Sie fehlende Werte in numerischen Spalten durch den Mittelwert oder Median der Daten in einer Spalte ersetzen, oder Sie können auch einen benutzerdefinierten Wert angeben, durch den fehlende Werte ersetzt werden sollen. Bei nicht numerischen Spalten können Sie fehlende Werte durch den Modus (den häufigsten Wert) der Spalte oder einen benutzerdefinierten Wert ersetzen.

Verwenden Sie diese Transformation, wenn Sie die Null- oder Leerwerte in bestimmten Spalten ersetzen möchten. Gehen Sie wie folgt vor, um fehlende Werte in einer bestimmten Spalte zu ersetzen. 

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Spalten verwalten** aus.

1. Wählen Sie **Fehlende Werte ersetzen**.

1. Wählen Sie die **Spalte** aus, in der Sie fehlende Werte ersetzen möchten.

1. Stellen Sie den **Modus** auf **Manuell** ein, um fehlende Werte durch von Ihnen angegebene Werte zu ersetzen. Mit der Einstellung **Automatisch (Standard)** ersetzt SageMaker Canvas fehlende Werte durch imputierte Werte, die am besten zu Ihren Daten passen. Diese Imputationsmethode wird automatisch für jede Modellerstellung durchgeführt, sofern Sie nicht den Modus **Manuell** angeben.

1. Stellen Sie den Wert **Ersetzen durch** ein:
   + Wenn Ihre Spalte numerisch ist, wählen Sie **Mittelwert**, **Median** oder **Benutzerdefiniert** aus. Durch **Mittelwert** werden fehlende Werte durch den Mittelwert für die Spalte ersetzt, und **Median** ersetzt fehlende Werte durch den Median für die Spalte. Wenn Sie **Benutzerdefiniert** wählen, müssen Sie einen benutzerdefinierten Wert angeben, den Sie verwenden möchten, um fehlende Werte zu ersetzen.
   + Wenn Ihre Spalte nicht numerisch ist, wählen Sie **Modus** oder **Benutzerdefiniert**. **Mode** ersetzt fehlende Werte durch den Modus oder den gebräuchlichsten Wert für die Spalte. Geben Sie für **Benutzerdefiniert** einen benutzerdefinierten Wert an, den Sie verwenden möchten, um fehlende Werte zu ersetzen.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

Nach dem Ersetzen der fehlenden Werte im Datensatz fügt SageMaker Canvas die Transformation im Abschnitt **Modellrezept** hinzu. Wenn Sie die Transformation aus dem Abschnitt **Modellrezept** entfernen, kehren die fehlenden Werte in den Datensatz zurück.

![\[Screenshot des Vorgangs zum Ersetzen fehlender Werte in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-replace-missing.png)


### Ausreißer ersetzen
<a name="canvas-prepare-data-replace-outliers"></a>

Ausreißer oder seltene Werte in der Verteilung und im Bereich Ihrer Daten können sich negativ auf die Modellgenauigkeit auswirken und zu längeren Erstellungszeiten führen. SageMaker Mit Canvas können Sie Ausreißer in numerischen Spalten erkennen und die Ausreißer durch Werte ersetzen, die innerhalb eines akzeptierten Bereichs in Ihren Daten liegen. Sie können wählen, ob Sie Ausreißer entweder mit Standardabweichungen oder einem benutzerdefinierten Bereich definieren möchten, und Sie können Ausreißer durch die Minimal- und Maximalwerte im akzeptierten Bereich ersetzen.

Um Ausreißer in Ihren Daten zu ersetzen, führen Sie die folgenden Schritte aus.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option Spalten **verwalten** aus.

1. Wählen Sie **Ausreißerwerte ersetzen**.

1. Wählen Sie die **Spalte**, in der Sie Ausreißer ersetzen möchten.

1. Wählen Sie für **Ausreißer definieren** die Optionen **Standardabweichung**, **Benutzerdefinierter numerischer Bereich** oder **Benutzerdefinierter Quantilbereich** aus.

1. Wenn Sie **Standardabweichung** wählen, geben Sie einen Wert für **Standardabweichungen** (Standardabweichung) zwischen 1–3 an. Wenn Sie **Benutzerdefinierter numerischer Bereich** oder **Benutzerdefinierter Quantilbereich** wählen, geben Sie die **Min** und **Max** Werte an (Zahlen für numerische Bereiche oder Perzentile zwischen 0 und 100% für Quantilbereiche).

1. Wählen Sie für **Ersetzen durch** den **Min-/Max-Bereich** aus.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

Mit der Option **Standardabweichung** werden Ausreißer in numerischen Spalten anhand des Mittelwerts und der Standardabweichung erkannt. Sie geben die Anzahl der Standardabweichungen an, bei denen ein Wert vom Mittelwert abweichen muss, um als Ausreißer betrachtet zu werden. Wenn Sie beispielsweise 3 für **Standardabweichungen** angeben, muss ein Wert um mehr als 3 Standardabweichungen vom Mittelwert abweichen, um als Ausreißer betrachtet zu werden. SageMaker Canvas ersetzt Ausreißer durch den Minimal- oder Maximalwert im akzeptierten Bereich. Wenn Sie beispielsweise die Standardabweichungen so konfigurieren, dass sie nur Werte zwischen 200 und 300 enthalten, ändert SageMaker Canvas einen Wert von 198 auf 200 (das Minimum).

Die Optionen **Benutzerdefinierter numerischer Bereich** und **Benutzerdefinierter Quantilbereich** erkennen Ausreißer in numerischen Spalten anhand von Minimal- und Maximalwerten. Verwenden Sie diese Methode, wenn Sie Ihre Schwellenwerte kennen, mit denen Ausreißer abgegrenzt werden. Wenn Sie einen numerischen Bereich wählen, sollten die **Min** - und **Max-Werte** die minimalen und maximalen numerischen Werte sein, die Sie zulassen möchten. SageMaker Canvas ersetzt alle Werte, die außerhalb der Minimal- und Maximalwerte liegen, durch die Minimal- und Maximalwerte. Wenn Ihr Bereich beispielsweise nur Werte zwischen 1 und 100 zulässt, ändert SageMaker Canvas einen Wert von 102 auf 100 (das Maximum). Wenn Sie einen Quantilbereich wählen, sollten die **Min** – und **Max** Werte dem Minimum und Maximum des Perzentilbereichs (0–100) entsprechen, den Sie zulassen möchten.

Nach dem Ersetzen der Werte im Datensatz fügt SageMaker Canvas die Transformation im Abschnitt **Modellrezept** hinzu. Wenn Sie die Transformation aus dem Abschnitt **Modellrezept** entfernen, kehren die ursprünglichen Werte zum Datensatz zurück.

![\[Screenshot des Vorgangs „Ausreißer ersetzen“ in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-replace-outlier.png)


### Ändern des Datentyps
<a name="canvas-prepare-data-change-type"></a>

SageMaker Canvas bietet Ihnen die Möglichkeit, den *Datentyp* Ihrer Spalten zwischen numerisch, text und datetime zu ändern und gleichzeitig den zugehörigen *Feature-Typ für diesen Datentyp* anzuzeigen. Ein *Datentyp* bezieht sich auf das Format der Daten und die Art und Weise, wie sie gespeichert werden, während sich der *Feature-Typ* auf die Eigenschaften der Daten bezieht, die in Algorithmen für Machine Learning verwendet werden, z. B. binär oder kategorisch. Dies gibt Ihnen die Flexibilität, den Datentyp in Ihren Spalten basierend auf den Funktionen manuell zu ändern. Die Möglichkeit, den richtigen Datentyp auszuwählen, gewährleistet Datenintegrität und Genauigkeit, bevor Modelle erstellt werden. Diese Datentypen werden beim Erstellen von Modellen verwendet.

**Anmerkung**  
Derzeit wird das Ändern des Feature-Typs (z. B. von binär zu kategorisch) nicht unterstützt.

In der folgenden Tabelle sind alle in Canvas unterstützten Datentypen aufgeführt.


| Datentyp | Description | Beispiel | 
| --- | --- | --- | 
| Numerischer Wert | Numerische Daten stehen für numerische Werte | 1, 2, 31.1, 1.2. 1.3 | 
| Text | Textdaten stellen Zeichenfolgen wie Namen oder Beschreibungen dar | A, B, C, DApfel, Banane, Orange1A\$1 , 2A\$1 , 3A\$1 | 
| DateTime | Datetime-Daten stellen Daten und Uhrzeiten im Zeitstempelformat dar | 01.07.2019 01:00:00, 01.07.2019 02:00:00, 01.07.2019 03:00:00 | 

Die folgende Tabelle führt alle unterstützten Feature-Typen in Canvas auf.


| Feature-Typ | Description | Beispiel | 
| --- | --- | --- | 
| Binär | Binäre Merkmale stellen zwei mögliche Werte dar | 0, 1, 0, 1, 0 (2 verschiedene Werte)wahr, falsch, wahr (2 unterschiedliche Werte) | 
| Kategorisch | Kategoriale Merkmale stehen für unterschiedliche Kategorien oder Gruppen | Apfel, Banane, Orange, Apfel (3 unterschiedliche Werte)A, B, C, D, E, A, D, C (5 verschiedene Werte) | 

Gehen Sie wie folgt vor, um den Datentyp einer Spalte in einem Datensatz zu ändern.

1. Gehen Sie auf der Registerkarte **Erstellen** der SageMaker Canvas-Anwendung zur **Spalten- oder **Rasteransicht**** und wählen Sie das Dropdownmenü **Datentyp** für die jeweilige Spalte aus.

1. Wählen Sie in der Dropdown-Liste **Datentyp** den Datentyp aus, in den konvertiert werden soll. Der folgende Screenshot zeigt das Dropdown-Menü.  
![\[Das Dropdown-Menü zur Konvertierung von Datentypen für eine Spalte, das auf der Registerkarte Erstellen angezeigt wird.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-change.png)

1. Wählen Sie unter **Spalte** die Spalte aus, für die Sie den Datentyp ändern möchten, oder überprüfen Sie sie.

1. Wählen Sie unter **Neuer Datentyp** den neuen Datentyp aus, in den Sie konvertieren möchten, oder überprüfen Sie ihn.

1. Wenn der **neue Datentyp** `Datetime` oder `Numeric` lautet, wählen Sie unter **Ungültige Werte behandeln** eine der folgenden Optionen aus:

   1. Durch **leeren Wert ersetzen** – Ungültige Werte werden durch einen leeren Wert ersetzt

   1. **Zeilen löschen** – Zeilen mit einem ungültigen Wert werden aus dem Datensatz entfernt

   1. Durch **benutzerdefinierten Wert ersetzen** – Ungültige Werte werden durch den von Ihnen angegebenen **benutzerdefinierten Wert** ersetzt.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

Der Datentyp für Ihre Spalte sollte jetzt aktualisiert sein.

## Bereitstellen von Zeitreihendaten
<a name="canvas-prepare-data-timeseries"></a>

Verwenden Sie die folgenden Funktionen, um Ihre Zeitreihendaten für die Erstellung von Zeitreihen-Prognosemodellen vorzubereiten.

### Abtastung von Zeitreihendaten
<a name="canvas-prepare-data-resample"></a>

Durch das Resampling von Zeitreihendaten können Sie regelmäßige Intervalle für die Beobachtungen in Ihrem Zeitreihendatensatz festlegen. Dies ist besonders nützlich, wenn Sie mit Zeitreihendaten arbeiten, die Beobachtungen in unregelmäßigen Abständen enthalten. Beispielsweise können Sie Resampling verwenden, um einen Datensatz mit Beobachtungen, die alle eine Stunde, zwei Stunden und drei Stunden aufgezeichnet wurden, in ein reguläres Intervall von einer Stunde zwischen den Beobachtungen umzuwandeln. Prognosealgorithmen erfordern, dass die Beobachtungen in regelmäßigen Abständen gemacht werden.

Gehen Sie wie folgt vor, um Zeitreihendaten erneut abzutasten.

1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte **Erstellen** die Option **Time series** aus.

1. Wählen Sie **Resample**.

1. Wählen Sie unter **Timestamp-Spalte** die Spalte aus, auf die Sie die Transformation anwenden möchten. Sie können nur Spalten vom Typ **Datetime** auswählen.

1. Wählen Sie im Bereich **Frequenzeinstellungen** eine **Frequenz** und eine **Rate** aus. **Frequenz** ist die Einheit der Frequenz und **Rate** ist das Intervall der Frequenzeinheit, das auf die Spalte angewendet werden soll. Wenn Sie beispielsweise für **Häufigkeitswert** und `Calendar Day` `1` für **Rate** wählen, wird das Intervall so festgelegt, dass es alle einen Kalendertag verlängert wird, z. B. `2023-03-26 00:00:00`, `2023-03-27 00:00:00`,`2023-03-28 00:00:00`. Eine vollständige Liste der **Häufigkeitswerte** finden Sie in der Tabelle nach diesem Verfahren. 

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

In der folgenden Tabelle sind alle **Frequenztypen** aufgeführt, die Sie beim Resampling von Zeitreihendaten auswählen können.


| Frequency (Frequenz) | Description | Beispielwerte (vorausgesetzt, Rate ist 1) | 
| --- | --- | --- | 
|  Geschäftstag  |  Geben Sie für die Beobachtungen in der Datetime-Spalte eine Stichprobe von 5 Geschäftstagen der Woche (Montag, Dienstag, Mittwoch, Donnerstag, Freitag) ein  |  2023-03-24 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-03 00:00:00  | 
|  Kalendertag  |  Geben Sie den Beobachtungen in der Datetime-Spalte eine Stichprobe für alle 7 Wochentage (Montag, Dienstag, Mittwoch, Donnerstag, Freitag, Samstag, Sonntag)  |  2023-03-26 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-01 00:00:00  | 
|  Woche  |  Nehmen Sie für die Beobachtungen in der Datetime-Spalte eine Neuberechnung auf den ersten Tag jeder Woche vor  |  2023-03-13 00:00:00 2023-03-20 00:00:00 2023-03-27 00:00:00 2023-04-03 00:00:00  | 
|  Monat  |  Vervollständigen Sie die Beobachtungen in der Datetime-Spalte mit dem ersten Tag jedes Monats  |  2023-03-01 00:00:00 2023-04-01 00:00:00 2023-05-01 00:00:00 2023-06-01 00:00:00  | 
|  Jährliches Quartal  |  Geben Sie für die Beobachtungen in der Datetime-Spalte eine Stichprobe auf den letzten Tag jedes Quartals zurück  |  2023-03-31 00:00:00 2023-06-30 00:00:00 2023-09-30 00:00:00 2023-12-31 00:00:00  | 
|  Jahr  |  Nehmen Sie für die Beobachtungen in der Datetime-Spalte eine Neuberechnung auf den letzten Tag jedes Jahres vor  |  31.12.2022 0:00:00 2023-12-31 00:00:00 2024-12-31 00:00:00  | 
|  Stunde  |  Fügen Sie Beobachtungen in der Datetime-Spalte für jede Stunde jeden Tages neu.  |  2023-03-24 00:00:00 2023-03-24 01:00:00 2023-03-24 02:00:00 2023-03-24 03:00:00  | 
|  Minute  |  Geben Sie für die Beobachtungen in der Datetime-Spalte eine Neuberechnung für jede Minute jeder Stunde ein  |  2023-03-24 00:00:00 2023-03-24 00:01:00 2023-03-24 00:02:00 2023-03-24 00:03:00  | 
|  Sekunde  |  Geben Sie für die Beobachtungen in der Datetime-Spalte eine Neuberechnung auf jede Sekunde jeder Minute ein  |  2023-03-24 00:00:00 2023-03-24 00:00:01 2023-03-24 00:00:02 2023-03-24 00:00:03  | 

Wenn Sie die Resampling-Transformation anwenden, können Sie mit der Option **Erweitert** angeben, wie die Ergebniswerte der restlichen Spalten (mit Ausnahme der Zeitstempelspalte) in Ihrem Datensatz geändert werden. Dies kann erreicht werden, indem Sie die Resampling-Methode angeben, bei der es sich entweder um ein Downsampling oder ein Upsampling sowohl für numerische als auch für nicht numerische Spalten handeln kann.

Durch das *Downsampling* wird das Intervall zwischen den Beobachtungen im Datensatz verlängert. Wenn Sie beispielsweise Beobachtungen, die entweder jede Stunde oder alle zwei Stunden aufgenommen werden, neu berechnen, wird jede Beobachtung in Ihrem Datensatz alle zwei Stunden aufgenommen. Die Werte anderer Spalten der stündlichen Beobachtungen werden mithilfe einer Kombinationsmethode zu einem einzigen Wert aggregiert. Die folgenden Tabellen zeigen ein Beispiel für die Neuabtastung von Zeitreihendaten unter Verwendung des Mittelwerts als Kombinationsmethode. Die Daten werden alle zwei Stunden auf jede Stunde heruntergerechnet.

Die folgende Tabelle zeigt die stündlichen Temperaturwerte über einen Tag vor dem Downsampling.


| Zeitstempel | Temperatur (Celsius) | 
| --- | --- | 
| 12:00 pm | 30 | 
| 1:00 am | 32 | 
| 2:00 am | 35 | 
| 3:00 am | 32 | 
| 4:00 am | 30 | 

Die folgende Tabelle zeigt die Temperaturwerte nach dem Downsampling auf alle zwei Stunden.


| Zeitstempel | Temperatur (Celsius) | 
| --- | --- | 
| 12:00 pm | 30 | 
| 2:00 am | 33,5 | 
| 2:00 am | 35 | 
| 4:00 am | 32,5 | 

Gehen Sie wie folgt vor, um Zeitreihendaten neu berechnen zu lassen:

1. Erweitern Sie den Abschnitt **Erweitert ** unter der Transformation **Resample**.

1. Wählen Sie „**Nichtnumerische Kombination**, um die Kombinationsmethode für nicht numerische Spalten anzugeben aus. In der nachfolgenden Tabelle finden Sie eine vollständige Liste der Kombinationsmethoden.

1. Wählen Sie **Numerische Kombination**, um die Kombinationsmethode für numerische Spalten anzugeben aus. In der nachfolgenden Tabelle finden Sie eine vollständige Liste der Kombinationsmethoden.

Wenn Sie keine Kombinationsmethoden angeben, gelten die Standardwerte `Most Common` für die **nichtnumerische Kombination** und `Mean` für die **numerische Kombination**. In der folgenden Tabelle sind die Methoden für numerische und nichtnumerische Kombinationen aufgeführt.


| Methode der Downsampling-Methode | Kombinationsmethode | Description | 
| --- | --- | --- | 
| Nichtnumerische Kombination | Am häufigsten | Aggregieren Sie die Werte in der nicht numerischen Spalte nach dem am häufigsten vorkommenden Wert | 
| Nichtnumerische Kombination | Letzte | Aggregieren Sie die Werte in der nicht numerischen Spalte nach dem letzten Wert in der Spalte | 
| Nichtnumerische Kombination | Erste | Aggregieren Sie die Werte in der nicht numerischen Spalte nach dem ersten Wert in der Spalte | 
| Numerische Kombination | Mean | Aggregieren Sie die Werte in der numerischen Spalte, indem Sie den Mittelwert aller Werte in der Spalte bilden | 
| Numerische Kombination | Median | Aggregieren Sie die Werte in der numerischen Spalte, indem Sie den Median aller Werte in der Spalte bilden | 
| Numerische Kombination | Min | Aggregieren Sie die Werte in der numerischen Spalte, indem Sie das Minimum aller Werte in der Spalte nehmen | 
| Numerische Kombination | Max | Aggregieren Sie die Werte in der numerischen Spalte, indem Sie das Maximum aller Werte in der Spalte nehmen | 
| Numerische Kombination | Summe | Aggregieren Sie die Werte in der numerischen Spalte, indem Sie alle Werte in der Spalte addieren | 
| Numerische Kombination | Quantil | Aggregieren Sie die Werte in der numerischen Spalte, indem Sie das Quantil aller Werte in der Spalte nehmen | 

Durch *Upsampling* wird das Intervall zwischen den Beobachtungen im Datensatz reduziert. Wenn Sie beispielsweise Beobachtungen, die alle zwei Stunden aufgenommen werden, in stündliche Beobachtungen umwandeln, werden die Werte der anderen Spalten der stündlichen Beobachtungen anhand der Werte interpoliert, die alle zwei Stunden aufgenommen wurden.

Gehen Sie wie folgt vor, um Zeitreihendaten hochzuladen:

1. Erweitern Sie den Abschnitt **Erweitert** unter der Transformation **Resample**.

1. Wählen Sie **Nichtnumerische Schätzung**, um die Schätzmethode für nicht numerische Spalten anzugeben. Eine vollständige Liste der Methoden finden Sie in der Tabelle nach diesem Verfahren.

1. Wählen Sie **Numerische Schätzung**, um die Schätzmethode für numerische Spalten anzugeben. In der nachfolgenden Tabelle finden Sie eine vollständige Liste der Methoden.

1. (Optional) Wählen Sie **ID-Spalte**, um die Spalte anzugeben, die IDs die Beobachtungen der Zeitreihe enthält. Geben Sie diese Option an, wenn Ihr Datensatz zwei Zeitreihen enthält. Wenn Sie eine Spalte haben, die nur eine Zeitreihe darstellt, geben Sie keinen Wert für dieses Feld an. Sie können beispielsweise einen Datensatz haben, der die Spalten `id` und `purchase` enthält. Die `id` Spalte hat die folgenden Werte: `[1, 2, 2, 1]`. Die `purchase` Spalte hat die folgenden Werte `[$2, $3, $4, $1]`. Daher hat der Datensatz zwei Zeitreihen – eine Zeitreihe ist: `1: [$2, $1]` und die andere Zeitreihe ist `2: [$3, $4]`.

Wenn Sie keine Schätzmethoden angeben, gelten die Standardwerte `Forward Fill` für **nichtnumerische Schätzung** und `Linear` für **numerische Schätzung**. In der folgende Tabelle sind die Schätzmethoden aufgeführt.


| Upsampling-Methode | Methode zur Schätzung | Description | 
| --- | --- | --- | 
| Nichtnumerische Schätzung | Vorwärts füllen | Interpolieren Sie Werte in der nicht numerischen Spalte, indem Sie nach allen Werten in der Spalte die aufeinanderfolgenden Werte nehmen | 
| Nichtnumerische Schätzung | Rückwärts füllen | Interpolieren Sie Werte in der nicht numerischen Spalte, indem Sie die aufeinanderfolgenden Werte vor allen Werten in der Spalte nehmen | 
| Nichtnumerische Schätzung | Immer wieder vermisst | Interpolieren Sie Werte in der nicht numerischen Spalte, indem Sie leere Werte anzeigen | 
| Numerische Schätzung | Linear, Zeit, Index, Null, S-Linear, Nearest, Quadratisch, Kubisch, Baryzentrisch, Polynomial, Krogh, Stückweises Polynom, Spline, P-Chip, Akima, Kubisches Spline, Aus Ableitungen | Interpolieren Sie Werte in der numerischen Spalte mithilfe des angegebenen Interpolators. [Informationen zu Interpolationsmethoden finden Sie unter Pandas. DataFrame.interpolate](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html) in der Pandas-Dokumentation. | 

Der folgende Screenshot zeigt die **erweiterten** Einstellungen mit ausgefüllten Feldern für Downsampling und Upsampling.

![\[Die Canvas-Anwendung mit dem Seitenbereich für das Resampling von Zeitreihen mit den erweiterten Optionen.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-resampling.png)


### Verwenden von Datums-/Uhrzeitab
<a name="canvas-prepare-data-datetime"></a>

Mit der Datetime-Extraktionstransformation können Sie Werte aus einer Datetime-Spalte in eine separate Spalte extrahieren. Wenn Sie beispielsweise über eine Spalte mit Kaufdaten verfügen, können Sie den Monatswert in eine separate Spalte extrahieren und die neue Spalte beim Erstellen Ihres Modells verwenden. Sie können mit einer einzigen Transformation auch mehrere Werte in separate Spalten extrahieren.

Ihre Datetime-Spalte muss ein unterstütztes Zeitstempelformat verwenden. Eine Liste der Formate, die SageMaker Canvas unterstützt, finden Sie unter. [Zeitreihenprognosen in Amazon SageMaker Canvas](canvas-time-series.md) Wenn Ihr Datensatz keines der unterstützten Formate verwendet, aktualisieren Sie Ihren Datensatz auf ein unterstütztes Zeitstempelformat und importieren Sie ihn erneut in Amazon SageMaker Canvas, bevor Sie Ihr Modell erstellen.

Gehen Sie wie folgt vor, um eine Datums-/Uhrzeit-Extraktion durchzuführen.

1. **Wählen Sie auf der Registerkarte **Erstellen** der SageMaker Canvas-Anwendung in der Transformationsleiste die Option Alle anzeigen aus.**

1. Wählen Sie **Funktionen extrahieren**.

1. Wählen Sie die **Timestamp-Spalte** aus, aus der Sie Werte extrahieren möchten.

1. Wählen Sie unter **Werte** einen oder mehrere Werte aus, die aus der Spalte extrahiert werden sollen. Die Werte, die Sie aus einer Zeitstempelspalte extrahieren können, sind **Jahr**, **Monat**, **Tag**, **Stunde**, **Woche des Jahres**, **Tag des Jahres** und **Quartal**.

1. (Optional) Wählen Sie **Vorschau**, um eine Vorschau der Transformationsergebnisse anzuzeigen.

1. Wählen Sie **Hinzufügen**, um die Transformation zum **Modellrezept** hinzuzufügen.

SageMaker Canvas erstellt für jeden der Werte, die Sie extrahieren, eine neue Spalte im Datensatz. Mit Ausnahme der **Jahreswerte** verwendet SageMaker Canvas eine auf 0 basierende Kodierung für die extrahierten Werte. Wenn Sie beispielsweise den **Monatswert** extrahieren, wird Januar als 0 und Februar als 1 extrahiert.

![\[Screenshot des Datetime-Extraktionsfeldes in der SageMaker Canvas-Anwendung.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/canvas/canvas-datetime-extract.png)


Die Transformation ist im Abschnitt **Modellrezept** aufgeführt. Wenn Sie die Transformation aus dem Abschnitt **Modellrezept** entfernen, werden die neuen Spalten aus dem Datensatz entfernt.