Verwenden von Data-Catalog-Tabellen für die Datenquelle
Für alle Datenquellen außer Amazon S3 und Konnektoren muss für den von Ihnen ausgewählten Quelltyp eine Tabelle im AWS Glue Data Catalog vorhanden sein. AWS Glue erstelle die Data Catalog-Tabelle nicht.
Einen Datenquellknoten basierend auf einer Data-Catalog-Tabelle konfigurieren
-
Rufen Sie im visuellen Editor einen neuen oder einen gespeicherten Auftrag auf.
-
Wählen Sie im Auftragsdiagramm einen Datenquellknoten aus.
-
Wählen Sie die Registerkarte Data source properties (Datenquelleneigenschaften) aus und geben Sie die folgenden Informationen ein:
-
S3 source type (S3-Quelltyp): (Nur für Amazon-S3-Datenquellen) Wählen Sie die Option Select a Catalog table (Katalogtabelle auswählen), um eine vorhandene AWS Glue Data Catalog-Tabelle zu verwenden.
-
Database (Datenbank): Wählen Sie die Datenbank im Data Catalog aus, die die Quelltabelle enthält, die Sie für diesen Auftrag verwenden möchten. Sie können über das Suchfeld eine Datenbank nach ihrem Namen suchen.
-
Table (Tabelle): Wählen Sie die Tabelle aus, die mit den Quelldaten verknüpft ist. Diese Tabelle muss bereits im AWS Glue Data Catalog vorhanden sein. Sie können über das Suchfeld eine Tabelle nach ihrem Namen suchen.
-
Partition predicate (Partitionsprädikat): (Nur für Amazon-S3-Datenquellen) Geben Sie einen Booleschen Ausdruck ein, der auf Spark SQL nur mit Partitionierungsspalten basiert. Beispiel:
"(year=='2020' and month=='04')" -
Temporary directory (Temporäres Verzeichnis): (Nur für Amazon-Redshift-Datenquellen) Geben Sie einen Pfad für den Speicherort eines Arbeitsverzeichnisses in Amazon S3 ein, in das Ihr ETL-Auftrag temporäre Zwischenergebnisse schreiben kann.
-
Role associated with the cluster (Mit dem Cluster verknüpfte Rolle): (Nur für Amazon-Redshift-Datenquellen) Geben Sie eine zu verwendende Rolle für Ihren ETL-Auftrag ein, die über Berechtigungen fürAmazon Redshift-Cluster verfügt. Weitere Informationen finden Sie unter Datenquellen- und Datenzielberechtigungen.
-