Utilizzo delle tabelle del catalogo dati per l'origine dati
Per tutte le origini dati ad eccezione di Amazon S3 e dei connettori, è necessario che esista una tabella in AWS Glue Data Catalog per il tipo di origine scelto. AWS Glue non crea la tabella in Data Catalog.
Per configurare un nodo di origine dati basato su una tabella del catalogo dati
-
Vai all'editor visivo per un processo nuovo o salvato.
-
Scegli un nodo di origine dati nel diagramma del processo.
-
Seleziona la scheda Data source properties (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:
-
S3 source type (Tipo di origine S3): (solo per origini dati Amazon S3) scegli l'opzione Select a Catalog table (Seleziona una tabella del catalogo) per utilizzare una tabella di AWS Glue Data Catalog.
-
Database: scegli il database nel catalogo dati contenente la tabella di origine da utilizzare per questo processo. Puoi utilizzare il campo di ricerca per cercare un database per nome.
-
Table (Tabella): scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve esistere già in AWS Glue Data Catalog. Puoi utilizzare il campo di ricerca per cercare una tabella per nome.
-
Partition predicate (Predicato di partizione): (solo per origini dati Amazon S3) inserisci un'espressione booleana basata su Spark SQL che includa solo le colonne di partizionamento. Ad esempio:
"(year=='2020' and month=='04')" -
Temporary directory (Directory temporanea): (solo per le origini dati Amazon Redshift) inserisci un percorso per la posizione di una directory di processo in Amazon S3 in cui il processo ETL può scrivere risultati intermedi temporanei.
-
Role associated with the cluster (Ruolo associato al cluster): (solo per le origini dati Amazon Redshift) inserisci un ruolo da utilizzare per il processo ETL che contiene le autorizzazioni per i cluster Amazon Redshift. Per ulteriori informazioni, consulta Autorizzazioni origine dati e destinazione dati.
-