Scaricamento di dati semistrutturati

Con Amazon Redshift puoi esportare i dati semistrutturati dal cluster Amazon Redshift in Amazon S3 in una varietà di formati, tra cui testo, Apache Parquet, Apache ORC e Avro. Nelle sezioni seguenti viene illustrato il processo di configurazione ed esecuzione delle operazioni di scaricamento per i dati semistrutturati in Amazon Redshift.

CSV or text formats

È possibile scaricare tabelle con colonne di dati SUPER su Amazon S3 in formato CSV (comma-separated value, valori delimitati da virgole) o testo. Utilizzando una combinazione di clausole di navigazione e annullamento della nidificazione, Amazon Redshift scarica i dati gerarchici in formato dati SUPER su Amazon S3 in formato CSV o testo. Successivamente, è possibile creare tabelle esterne contro i dati scaricati ed eseguire una query utilizzando Redshift Spectrum. Per informazioni sull'utilizzo di UNLOAD e delle autorizzazioni IAM richieste, consultare UNLOAD.

L’esempio seguente illustra come scaricare tutti i dati da una tabella Amazon Redshift in un bucket Amazon S3.


UNLOAD ('SELECT * FROM <redshift_table>')
TO '<S3_bucket>'
IAM_ROLE '<iam_role>'
DELIMITER AS '|'
GZIP
ALLOWOVERWRITE;

A differenza di altri tipi di dati in cui una stringa definita dall'utente rappresenta un valore nullo, Amazon Redshift esporta le colonne di dati SUPER utilizzando il formato JSON e li rappresenta come null come determinato dal formato JSON. Di conseguenza, le colonne di dati SUPER ignorano l'opzione NULL [AS] utilizzata nei comandi UNLOAD.

Parquet format

Puoi scaricare tabelle con colonne dati SUPER su Amazon S3 nel formato Parquet. Amazon Redshift rappresenta le colonne SUPER in Parquet come tipo di dati JSON. Ciò consente di rappresentare i dati semistrutturati in Parquet. È possibile eseguire query su queste colonne utilizzando Redshift Spectrum o reinserirle in Amazon Redshift utilizzando il comando COPY. Per informazioni sull'utilizzo di UNLOAD e delle autorizzazioni IAM richieste, consultare UNLOAD.

L’esempio seguente scarica tutti i dati da una tabella Amazon Redshift in un bucket Amazon S3 in formato Parquet.


UNLOAD ('SELECT * FROM <Amazon Redshift_table>')
TO '<S3_bucket>'
IAM_ROLE '<iam_role>'
FORMAT PARQUET;

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo di COPY per caricare i dati JSON

Query sui dati semistrutturati