Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen eines Datenablaufs
Verwenden Sie einen Data Wrangler-Fluss in SageMaker Canvas oder einen Datenfluss, um eine Datenvorbereitungspipeline zu erstellen und zu ändern. Wir empfehlen, Data Wrangler für Datensätze zu verwenden, die größer als 5 GB sind.
Führen Sie zunächst die folgenden Schritte aus, um Ihre Daten in einen Datenfluss zu importieren.
-
Öffnen Sie Canvas SageMaker .
-
Wählen Sie im linken Navigationsbereich die Option Data Wrangler aus.
-
Wählen Sie Importieren und vorbereiten aus.
-
Wählen Sie im Dropdown-Menü entweder Tabellarisch oder Bild aus.
-
Wählen Sie unter Datenquelle auswählen Ihre Datenquelle aus und wählen Sie die Daten, die Sie importieren möchten. Sie haben die Möglichkeit, bis zu 30 Dateien oder einen Ordner auszuwählen. Wenn Sie bereits einen Datensatz in Canvas importiert haben, wählen Sie Canvas-Datensatz als Quelle aus. Stellen Sie andernfalls eine Verbindung zu einer Datenquelle wie Amazon S3 oder Snowflake her und durchsuchen Sie Ihre Daten. Informationen zum Herstellen einer Verbindung mit einer Datenquelle oder zum Importieren von Daten finden Sie auf den folgenden Seiten:
-
Nachdem Sie die Daten ausgewählt haben, die Sie importieren möchten, wählen Sie Weiter aus.
-
(Optional) Öffnen Sie beim Importieren eines tabellarischen Datensatzes im Abschnitt Importeinstellungen das Dropdown-Menü Erweitert. Sie können die folgenden erweiterten Einstellungen für Datenflussimporte festlegen:
Stichprobenmethode – Wählen Sie die Stichprobenmethode und den Stichprobenumfang aus, die Sie verwenden möchten. Weitere Informationen zum Ändern Ihrer Stichprobe finden Sie im Abschnitt Bearbeiten der Konfiguration der Datenflussstichprobe.
Dateikodierung (CSV) – Wählen Sie die Kodierung Ihrer Datensatzdatei aus.
UTF-8ist die Standardeinstellung.Erste Zeilen überspringen – Geben Sie die Anzahl der Zeilen ein, die Sie überspringen möchten, wenn Sie am Anfang Ihres Datensatzes redundante Zeilen haben.
Trennzeichen – Wählen Sie das Trennzeichen aus, das die einzelnen Zellen in Ihren Daten voneinander trennt. Sie können auch ein benutzerdefiniertes Trennzeichen angeben.
Mehrzeilige Erkennung, Wählen Sie diese Option aus, wenn Sie möchten, dass Canvas Ihren gesamten Datensatz manuell nach mehrzeiligen Zellen durchsucht. Canvas ermittelt anhand einer Stichprobe Ihrer Daten, ob die Mehrzeilenunterstützung verwendet werden soll. Es ist jedoch möglich, dass Canvas in der Stichprobe keine mehrzeiligen Zellen erkennt. In diesem Fall empfehlen wir Ihnen, die Option Mehrzeilige Erkennung auszuwählen, um Canvas zu zwingen, Ihren gesamten Datensatz auf mehrzeilige Zellen zu überprüfen.
-
Wählen Sie Importieren aus.
Sie sollten nun über einen neuen Datenfluss verfügen und können mit dem Hinzufügen von Transformationsschritten und Analysen beginnen.