Caricamento delle tabelle con il comando COPY

Il comando COPY sfrutta l'architettura MPP (Massively Parallel Processing) di Amazon Redshift per leggere e caricare dati in parallelo da file su Amazon S3, da una tabella DynamoDB o da output di testo da uno o più host remoti.

Prima di imparare tutte le opzioni del comando COPY, consigliamo di apprendere le opzioni di base per caricare i dati di Amazon S3. Nell Guida alle operazioni di base di Amazon Redshift viene illustrato il semplice utilizzo del comando COPY per caricare i dati di Amazon S3 con un ruolo IAM predefinito. Per i dettagli, consulta Fase 4: caricare i dati da Amazon S3 in Amazon Redshift.

Nota

Consigliamo l'uso del comando COPY per caricare grandi quantità di dati. L'utilizzo di singole istruzioni INSERT per popolare una tabella potrebbe essere eccessivamente lento. In alternativa, se i dati sono già presenti in altre tabelle di database Amazon Redshift, utilizzare INSERT INTO... SELECT o CREATE TABLE AS per migliorare le prestazioni. Per informazioni, consulta INSERT or CREATE TABLE AS.

Per caricare dati da un'altra AWS risorsa, Amazon Redshift deve disporre dell'autorizzazione per accedere alla risorsa ed eseguire le azioni necessarie.

Per concedere o revocare il privilegio per caricare dati in una tabella utilizzando un comando COPY, concedi o revoca il privilegio INSERT.

I dati devono essere nel formato corretto per il caricamento nella tabella Amazon Redshift. Questa sezione presenta le linee guida per preparare e verificare i dati prima del caricamento e per convalidare un'istruzione COPY prima di eseguirla.

Per proteggere le informazioni nei file, è possibile eseguire la crittografia dei file di dati prima di caricarli nel bucket Amazon S3; COPY eseguirà la decrittografia dei dati mentre esegue il caricamento. Inoltre, è possibile limitare l'accesso ai dati del caricamento fornendo credenziali di sicurezza temporanee agli utenti. Le credenziali di sicurezza temporanee offrono maggiore sicurezza perché hanno una durata breve e non possono essere riutilizzate dopo la loro scadenza.

Amazon Redshift dispone di funzionalità integrate per COPY per caricare rapidamente dati non compressi e delimitati. È possibile comprimere i file tramite gzip, lzop o bzip2 per risparmiare tempo nel caricamento dei file.

Se nella query COPY si trovano le seguenti parole chiave, la suddivisione automatica dei dati non compressi non è supportata: ESCAPE, REMOVEQUOTES e FIXEDWIDTH. Ma la parola chiave CSV è supportata.

Per garantire la sicurezza dei dati in transito all'interno del AWS cloud, Amazon Redshift utilizza SSL con accelerazione hardware per comunicare con Amazon S3 o Amazon DynamoDB per le operazioni di COPY, UNLOAD, backup e ripristino.

Quando si carica la tabella direttamente da una tabella di Amazon DynamoDB, si ha la possibilità di controllare la quantità di throughput assegnato di Amazon DynamoDB che viene utilizzato.

Facoltativamente, è possibile consentire a COPY di analizzare i dati di input e applicare automaticamente codifiche di compressione ottimali alla tabella come parte del processo di caricamento.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Caricamento dei dati

Credenziali e autorizzazioni di accesso