Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwendung des Delta-Lake-Frameworks in AWS Glue Studio
Verwendung des Delta-Lake-Frameworks in Datenquellen
Verwendung des Delta-Lake-Frameworks in Amazon-S3-Datenquellen
-
Wählen Sie im Quellenmenü die Option Amazon S3.
-
Wenn Sie die Datenkatalog-Tabelle als Amazon-S3-Quelltyp wählen, wählen Sie eine Datenbank und eine Tabelle aus.
-
AWS Glue Studio zeigt den Formattyp als Delta Lake und die Amazon-S3-URL an.
-
Wählen Sie Zusätzliche Optionen, um ein Schlüssel-Wert-Paar einzugeben. Ein Schlüssel-Wert-Paar könnte beispielsweise sein: Schlüssel: timestampAsOf und Wert: 2023-02-24 14:16:18.
-
Wenn Sie den Amazon-S3-Standort als Amazon-S3-Quelltyp wählen, wählen Sie die Amazon-S3-URL aus, indem Sie auf Amazon S3 durchsuchen klicken.
-
Wählen Sie unter Datenformat die Option Delta Lake aus.
Anmerkung
Wenn AWS Glue Studio das Schema nicht aus dem ausgewählten Amazon-S3-Ordner oder der ausgewählten Datei ableiten kann, wählen Sie Zusätzliche Optionen, um einen neuen Ordner oder eine neue Datei auszuwählen.
Wählen Sie unter Zusätzliche Optionen unter Schema-Inferenz aus den folgenden Optionen:
-
Lassen Sie AWS Glue Studio automatisch eine Beispieldatei auswählen – AWS Glue Studio wird eine Beispieldatei am Amazon-S3-Speicherort auswählen, damit das Schema abgeleitet werden kann. Im Feld Datei mit automatischem Sampling können Sie die Datei anzeigen, die automatisch ausgewählt wurde.
-
Wählen Sie eine Beispieldatei aus Amazon S3 – wählen Sie die Amazon-S3-Datei aus, die Sie verwenden möchten, indem Sie auf Amazon S3 durchsuchen klicken.
-
-
Klicken Sie auf Schema ableiten. Sie können das Ausgabeschema dann anzeigen, indem Sie auf die Registerkarte Ausgabeschema klicken.
Verwendung des Delta-Lake-Frameworks in Datenkatalog-Datenquellen
-
Wählen Sie im Menü Quelle die Option AWS Glue Studio-Datenkatalog aus.
-
Wählen Sie auf der Registerkarte Datenquelleneigenschaften eine Datenbank und eine Tabelle aus.
-
AWS Glue Studio zeigt den Formattyp als Delta Lake und die Amazon-S3-URL an.
Anmerkung
Wenn Ihre Delta Lake-Quelle noch nicht als AWS Glue-Datenkatalogtabelle registriert ist, haben Sie zwei Möglichkeiten:
-
Erstellen Sie einen AWS Glue-Crawler für den Delta-Lake-Datenspeicher. Weitere Informationen finden Sie unter So geben Sie Konfigurationsoptionen für einen Delta-Lake-Datenspeicher an.
-
Verwenden aus einer Amazon-S3-Datenquelle, um Ihre Delta-Lake-Datenquelle auszuwählen. Siehe Verwendung des Delta-Lake-Frameworks in Amazon-S3-Datenquellen.
-
Verwendung von Delta-Lake-Formaten in Datenzielen
Verwendung von Delta-Lake-Formaten in Datenkatalog-Datenzielen
-
Wählen Sie im Menü Ziel die Option AWS Glue Studio-Datenkatalog aus.
-
Wählen Sie auf der Registerkarte Datenquelleneigenschaften eine Datenbank und eine Tabelle aus.
-
AWS Glue Studio zeigt den Formattyp als Delta Lake und die Amazon-S3-URL an.
Verwendung von Delta-Lake-Formaten in Amazon-S3-Datenquellen
Geben Sie Werte ein oder wählen Sie aus den verfügbaren Optionen, um das Delta–Lake-Format zu konfigurieren.
-
Komprimierungstyp – Wählen Sie eine der Optionen für den Komprimierungstyp: Unkomprimiert oder Snappy.
-
Amazon-S3-Zielstandort – Wählen Sie den Amazon-S3-Zielstandort aus, indem Sie auf S3 durchsuchen klicken.
-
Aktualisierungsoptionen für den Datenkatalog – Die Aktualisierung des Datenkatalogs wird für dieses Format im visuellen Editor von Glue Studio nicht unterstützt.
-
Do not update the Data Catalog (Data Catalog nicht aktualisieren): (Standard) Wählen Sie diese Option, wenn der Auftrag den Data Catalog nicht aktualisieren soll, selbst wenn sich das Schema ändert oder neue Partitionen hinzukommen.
-
Um den Datenkatalog nach der AWS Glue-Auftragsausführung zu aktualisieren, führen Sie einen AWS Glue-Crawler aus oder planen Sie ihn. Weitere Informationen finden Sie unter So geben Sie Konfigurationsoptionen für einen Delta-Lake-Datenspeicher an.
-
-
Partitionsschlüssel: Wählen Sie aus, welche Spalten als Partitionsschlüssel in der Ausgabe verwendet werden sollen. Um weitere Partitionsschlüssel hinzuzufügen, wählen Sie Add a partition key (Partitionsschlüssel hinzufügen) aus.
-
Wählen Sie Zusätzliche Optionen, um ein Schlüssel-Wert-Paar einzugeben. Ein Schlüssel-Wert-Paar könnte beispielsweise sein: Schlüssel: und Wert: 2023-02-24 14:16:18. timestampAsOf