Caricamento di file di dati - Amazon Redshift

Amazon Redshift non supporterà più la creazione di nuovi Python UDFs a partire dalla Patch 198. Python esistente UDFs continuerà a funzionare fino al 30 giugno 2026. Per ulteriori informazioni, consulta il post del blog.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Caricamento di file di dati

I file di dati di origine sono disponibili in diversi formati e utilizzano diversi algoritmi di compressione. Quando si caricano i dati con il comando COPY, Amazon Redshift carica tutti i file a cui fa riferimento il prefisso del bucket Amazon S3. Un prefisso è una stringa di caratteri all'inizio del nome della chiave dell'oggetto. Se il prefisso si riferisce a più file o file che possono essere divisi, Amazon Redshift carica i dati in parallelo, sfruttando l'architettura MPP di Amazon Redshift. Questo consente di suddividere il carico di lavoro tra i nodi del cluster. Quando tutti i dati vengono caricati da un singolo file che non è possibile dividere, Amazon Redshift viene forzato a eseguire un caricamento serializzato, che è molto più lento. Le sezioni seguenti descrivono il modo consigliato per caricare diversi tipi di file in Amazon Redshift, a seconda del formato e della compressione.

Caricamento di dati da file che possono essere divisi

I seguenti file possono essere divisi automaticamente quando i dati vengono caricati:

  • un file CSV non compresso

  • un file a colonne (Parquet/ORC)

Amazon Redshift divide automaticamente i file di almeno 128 MB o più grandi in blocchi. I file a colonne, in particolare Parquet e ORC, non vengono suddivisi se hanno dimensioni inferiori a 128 MB. Redshift utilizza le sezioni che lavorano in parallelo per caricare i dati. Ciò fornisce prestazioni di carico rapide.

Caricamento di dati da file che non possono essere divisi

I tipi di file come JSON o CSV, se compressi con altri algoritmi di compressione, come GZIP, non vengono divisi automaticamente. Per questi si consiglia di dividere manualmente i dati in più file più piccoli di dimensioni simili, da 1 MB a 1 GB dopo la compressione. Fare in modo, inoltre, che il numero di file sia un multiplo del numero di sezioni nel cluster. Per ulteriori informazioni su come suddividere i dati in più file e per esempi di caricamento dei dati con COPY, consulta Caricamento di dati da Amazon S3.