Daten exportieren - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Daten exportieren

Exportieren Sie die Daten, um die Transformationen aus Ihrem Datenfluss auf den gesamten importierten Datensatz anzuwenden. Sie können jeden Knoten in Ihrem Datenfluss an die folgenden Speicherorte exportieren:

  • SageMaker Canvas-Datensatz

  • Amazon S3

Wenn Sie Modelle in Canvas trainieren möchten, können Sie Ihren vollständigen, transformierten Datensatz als Canvas-Datensatz exportieren. Wenn Sie Ihre transformierten Daten in maschinellen Lern-Workflows außerhalb von SageMaker Canvas verwenden möchten, können Sie Ihren Datensatz nach Amazon S3 exportieren.

Exportieren in einen Canvas-Datensatz

Gehen Sie wie folgt vor, um einen SageMaker Canvas-Datensatz aus einem Knoten in Ihrem Datenfluss zu exportieren.

Um einen Knoten in Ihrem Flow als SageMaker Canvas-Datensatz zu exportieren
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Auslassungszeichen neben dem Knoten, den Sie exportieren möchten.

  3. Bewegen Sie den Mauszeiger im Kontextmenü über Exportieren und wählen Sie anschließend Daten in Canvas-Datensatz exportieren aus.

  4. Geben Sie im Seitenbereich In Canvas-Datensatz exportieren, einen Datensatznamen für den neuen Datensatz ein.

  5. Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn SageMaker Canvas Ihren gesamten Datensatz verarbeiten und speichern soll. Deaktivieren Sie diese Option, um die Transformationen nur auf die Beispieldaten anzuwenden, mit denen Sie in Ihrem Datenfluss arbeiten.

  6. Wählen Sie Export aus.

Sie sollten nun in der Lage sein, die Seite Datensätze der Canvas-Anwendung aufzurufen und Ihren neuen Datensatz anzuzeigen.

Exportieren zu Amazon S3

Beim Export Ihrer Daten zu Amazon S3 können Sie die Skalierung anpassen, um Daten jeder Größe zu transformieren und zu verarbeiten. Canvas verarbeitet Ihre Daten automatisch lokal, sofern der Speicher der Anwendung die Größe Ihres Datensatzes bewältigen kann. Wenn die Größe Ihres Datensatzes die lokale Speicherkapazität von 5 GB überschreitet, initiiert Canvas in Ihrem Auftrag einen Remote-Auftrag, um zusätzliche Rechenressourcen bereitzustellen und die Daten schneller zu verarbeiten. Standardmäßig verwendet Canvas Amazon EMR Serverless, um diese Remote-Aufträge auszuführen. Sie können Canvas jedoch manuell so konfigurieren, dass entweder EMR Serverless oder ein SageMaker Verarbeitungsjob mit Ihren eigenen Einstellungen verwendet wird.

Anmerkung

Bei der Ausführung eines EMR-Serverless-Auftrags übernimmt der Auftrag standardmäßig die IAM-Rolle, die KMS-Schlüsseleinstellungen und die Tags Ihrer Canvas-Anwendung.

Im Folgenden werden die Optionen für Remote-Aufträge in Canvas zusammengefasst:

  • EMR Serverless: Dies ist die Standardoption, die Canvas für Remote-Aufträge verwendet. EMR Serverless stellt automatisch Rechenressourcen bereit und skaliert diese, um Ihre Daten zu verarbeiten, sodass Sie sich keine Gedanken über die Auswahl der richtigen Rechenressourcen für Ihren Workload machen müssen. Weitere Informationen zu EMR Serverless finden Sie im Benutzerhandbuch für EMR Serverless.

  • SageMaker Verarbeitung: SageMaker Verarbeitungsaufträge bieten erweiterte Optionen und eine detaillierte Kontrolle über die Rechenressourcen, die für die Verarbeitung Ihrer Daten verwendet werden. Sie können beispielsweise den Typ und die Anzahl der Rechen-Instances angeben, den Auftrag in Ihrer eigenen VPC konfigurieren und den Netzwerkzugriff steuern, Verarbeitungsaufträge automatisieren und vieles mehr. Weitere Informationen zur Automatisierung von Verarbeitungsaufträgen finden Sie unter Erstellen eines Zeitplans für die automatische Verarbeitung neuer Daten. Weitere allgemeine Informationen zur SageMaker Verarbeitung von Aufträgen finden Sie unterWorkloads zur Datentransformation mit SageMaker Processing.

Die folgenden Dateitypen werden beim Export nach Amazon S3 unterstützt:

  • CSV

  • Parquet

Lesen Sie die folgenden Seiten, um zu beginnen.

Voraussetzungen für EMR-Serverless-Aufträge

Um einen Remote-Auftrag zu erstellen, der EMR-Serverless-Ressourcen verwendet, müssen Sie über die erforderlichen Berechtigungen verfügen. Sie können Berechtigungen entweder über die Amazon SageMaker AI-Domain oder die Benutzerprofileinstellungen gewähren, oder Sie können die AWS IAM-Rolle Ihres Benutzers manuell konfigurieren. Anweisungen zum Erteilen von Berechtigungen zur Verarbeitung großer Datenmengen finden Sie unter Gewähren von Berechtigungen zur Verwendung großer Datenmengen während des gesamten ML-Lebenszyklus für Benutzer.

Wenn Sie diese Richtlinien nicht konfigurieren möchten, aber dennoch große Datensätze mit Data Wrangler verarbeiten müssen, können Sie alternativ einen Verarbeitungsjob verwenden. SageMaker

Gehen Sie wie folgt vor, um Ihre Daten nach Amazon S3 zu exportieren. Um einen Remote-Auftrag zu konfigurieren, befolgen Sie bitte die optionalen erweiterten Schritte.

So exportieren Sie einen Knoten in Ihrem Fluss nach Amazon S3
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Auslassungszeichen neben dem Knoten, den Sie exportieren möchten.

  3. Bewegen Sie den Mauszeiger im Kontextmenü über Exportieren und wählen Sie anschließend Daten nach Amazon S3 exportieren aus.

  4. Im Seitenbereich Nach Amazon S3 exportieren können Sie den Datensatznamen für den neuen Datensatz ändern.

  5. Geben Sie für den S3-Standort den Amazon-S3-Standort ein, in den Sie den Datensatz exportieren möchten. Sie können die S3-URI, den Alias oder die ARN des S3-Speicherorts oder des S3-Zugangspunkts eingeben. Weitere Informationen zu Zugangspunkten finden Sie unter Verwalten des Datenzugriffs mit Amazon S3 Access Points im Benutzerhandbuch für Amazon S3.

  6. (Optional) Geben Sie für erweiterte Einstellungen Werte für die folgenden Felder an:

    1. Dateityp – Das Dateiformat Ihrer exportierten Daten.

    2. Trennzeichen – Das Trennzeichen, das zum Trennen von Werten in der Datei verwendet wird.

    3. Komprimierung – die Komprimierungsmethode, mit der die Dateigröße reduziert wird.

    4. Anzahl der Partitionen – Die Anzahl der Datensatzdateien, die Canvas als Ausgabe des Auftrags schreibt.

    5. Spalten auswählen – Sie können eine Teilmenge von Spalten aus den Daten auswählen, die in die Partitionen aufgenommen werden sollen.

  7. lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Sie möchten, dass Canvas Ihre Datenflusstransformationen auf Ihren gesamten Datensatz anwendet und das Ergebnis exportiert. Wenn Sie diese Option deaktivieren, wendet Canvas die Transformationen nur auf die Stichprobe Ihres Datensatzes an, die im interaktiven Data Wrangler-Datenfluss verwendet wird.

    Anmerkung

    Wenn Sie nur eine Stichprobe Ihrer Daten exportieren, verarbeitet Canvas Ihre Daten in der Anwendung und erstellt keinen Remote-Auftrag für Sie.

  8. Lassen Sie die Option Automatische Auftragskonfiguration ausgewählt, wenn Sie möchten, dass Canvas automatisch entscheidet, ob der Auftrag mit dem Canvas-Anwendungsspeicher oder einem EMR-Serverless-Auftrag ausgeführt werden soll. Wenn Sie diese Option deaktivieren und Ihren Job manuell konfigurieren, können Sie wählen, ob Sie einen EMR Serverless Job oder einen SageMaker Processing Job verwenden möchten. Anweisungen zur Konfiguration eines EMR-Serverless-Jobs oder eines SageMaker Processing-Jobs finden Sie im Abschnitt nach diesem Verfahren, bevor Sie Ihre Daten exportieren.

  9. Wählen Sie Export aus.

Die folgenden Verfahren zeigen, wie Sie die Remote-Job-Einstellungen für EMR Serverless oder SageMaker Processing manuell konfigurieren, wenn Sie Ihren vollständigen Datensatz nach Amazon S3 exportieren.

EMR Serverless

Um einen EMR-Serverless-Auftrag beim Exportieren nach Amazon S3 zu konfigurieren, gehen Sie wie folgt vor:

  1. Deaktivieren Sie im Seitenbereich „Nach Amazon S3 exportieren“ die Option Automatische Auftragskonfiguration.

  2. Wählen Sie EMR Serverless aus.

  3. Geben Sie für Auftragsname einen Namen für Ihren EMR-Serverless-Auftrag ein. Der Name kann Buchstaben, Zahlen, Bindestriche und Unterstriche enthalten.

  4. Geben Sie für die IAM-Rolle die IAM-Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen zum Ausführen von EMR-Serverless-Anwendungen verfügen. Weitere Informationen finden Sie unter Gewähren von Berechtigungen zur Verwendung großer Datenmengen während des gesamten ML-Lebenszyklus für Benutzer.

  5. (Optional) Geben Sie für KMS-Schlüssel die Schlüssel-ID oder den ARN eines an AWS KMS key , um die Jobprotokolle zu verschlüsseln. Wenn Sie keinen Schlüssel eingeben, verwendet Canvas einen Standardschlüssel für EMR Serverless.

  6. (Optional) Geben Sie für die Monitoring-Konfiguration den Namen einer Amazon CloudWatch Logs-Protokollgruppe ein, in der Sie Ihre Protokolle veröffentlichen möchten.

  7. (Optional) Fügen Sie für Tags Metadaten-Tags zum EMR Serverless-Auftrag hinzu, die aus Schlüssel-Wert-Paaren bestehen. Diese Tags können zur Kategorisierung und Suche von Aufträgen verwendet werden.

  8. Wählen Sie Export, um den Auftrag zu starten.

SageMaker Processing

Gehen Sie wie folgt vor, um einen SageMaker Verarbeitungsjob beim Export nach Amazon S3 zu konfigurieren:

  1. Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Auftragskonfiguration.

  2. Wählen Sie SageMaker Verarbeitung aus.

  3. Geben Sie Job Jobname einen Namen für Ihren SageMaker AI Processing-Job ein.

  4. Wählen Sie unter Instance-Typ den Typ der Rechen-Instance aus, auf der der Verarbeitungsauftrag ausgeführt werden soll.

  5. Geben Sie unter Anzahl der Instances die Anzahl der Instances an, die gestartet werden sollen.

  6. Geben Sie für die IAM-Rolle die IAM-Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen verfügen, damit SageMaker KI in Ihrem Namen Verarbeitungsaufträge erstellen und ausführen kann. Diese Berechtigungen werden gewährt, wenn Sie die AmazonSageMakerFullAccessRichtlinie mit Ihrer IAM-Rolle verknüpft haben.

  7. Geben Sie für die Volumengröße die Speichergröße in GB für das ML-Speichervolumen ein, das jeder Verarbeitungs-Instance zugeordnet ist. Wählen Sie die Größe auf der Grundlage Ihrer erwarteten Eingabe- und Ausgabedatengröße.

  8. (Optional) Geben Sie für den Volume-KMS-Schlüssel einen KMS-Schlüssel an, um das Speichervolume zu verschlüsseln. Wenn Sie keinen Schlüssel angeben, wird der standardmäßige Amazon-EBS-Verschlüsselungsschlüssel verwendet.

  9. (Optional) Geben Sie für KMS-Schlüssel einen KMS-Schlüssel an, um die Eingabe- und Ausgabedatenquellen von Amazon S3 zu verschlüsseln, die vom Verarbeitungsauftrag verwendet werden.

  10. (Optional) Gehen Sie für Konfiguration des Spark-Speichers wie folgt vor:

    1. Geben Sie den Treiberspeicher in MB für den Spark-Treiberknoten ein, der die Auftragskoordination und -planung übernimmt.

    2. Geben Sie Executor-Speicher in MB für die Spark-Executor-Knoten ein, die einzelne Aufgaben im Auftrag ausführen.

  11. (Optional) Gehen Sie für Zusätzliche Konfigurationen wie folgt vor:

    1. Geben Sie für Subnetzkonfiguration die IDs VPC-Subnetze ein, in denen die Verarbeitungsinstanzen gestartet werden sollen. Standardmäßig verwendet der Auftrag die Einstellungen Ihrer Standard-VPC.

    2. Geben Sie für die Sicherheitsgruppenkonfiguration die IDs Sicherheitsgruppen ein, um die Verbindungsregeln für eingehende und ausgehende Verbindungen zu steuern.

    3. Aktivieren Sie die Option Verschlüsselung des Datenverkehrs zwischen Containern aktivieren, um die Netzwerkkommunikation zwischen Verarbeitungscontainern während des Auftrags zu verschlüsseln.

  12. (Optional) Für Associate-Zeitpläne können Sie einen EventBridge Amazon-Zeitplan erstellen wählen, damit der Verarbeitungsjob in wiederkehrenden Intervallen ausgeführt wird. Wählen Sie Neuen Zeitplan erstellen aus und füllen Sie das Dialogfeld aus. Weitere Informationen zum Ausfüllen dieses Abschnitts und zum Ausführen von Verarbeitungsaufträgen nach einem Zeitplan finden Sie unter Erstellen eines Zeitplans für die automatische Verarbeitung neuer Daten.

  13. (Optional) Fügen Sie Tags als Schlüssel-Wert-Paare hinzu, damit Sie Verarbeitungsaufträge kategorisieren und nach ihnen suchen können.

  14. Wählen Sie Exportieren aus, um den Verarbeitungsauftrag zu starten.

Nach dem Export Ihrer Daten sollten Sie den vollständig verarbeiteten Datensatz am angegebenen Amazon-S3-Speicherort finden.