Laden von Datendateien - Amazon Redshift

Amazon Redshift unterstützt ab dem 1. November 2025 nicht mehr die Erstellung neuer Python-UDFs. Wenn Sie Python-UDFs verwenden möchten, erstellen Sie die UDFs vor diesem Datum. Bestehende Python-UDFs funktionieren weiterhin wie gewohnt. Weitere Informationen finden Sie im Blog-Posting.

Laden von Datendateien

Quelldatendateien weisen verschiedene Formate auf und verwenden unterschiedliche Komprimierungsalgorithmen. Beim Laden von Daten mit dem COPY-Befehl lädt Amazon Redshift alle Dateien, auf die mit dem Amazon-S3-Bucket-Präfix verwiesen wird. (Bei dem Präfix handelt es sich um eine Zeichenfolge am Anfang des Objektschlüsselnamens.) Wenn sich das Präfix auf mehrere Dateien oder auf aufteilbare Dateien bezieht, lädt Amazon Redshift die Daten parallel und nutzt dabei die MPP-Architektur von Amazon Redshift. Dadurch wird der Workload auf die Knoten im Cluster verteilt. Wenn Sie dagegen Daten aus einer Datei laden, die nicht aufgeteilt werden kann, muss Amazon Redshift einen serialisierten Ladevorgang durchführen, was viel langsamer ist. In den folgenden Abschnitten wird die empfohlene Methode zum Laden verschiedener Dateitypen in Amazon Redshift je nach Format und Komprimierung beschrieben.

Laden von Daten aus Dateien, die aufgeteilt werden können

Die folgenden Dateien können automatisch aufgeteilt werden, wenn ihre Daten geladen werden:

  • unkomprimierte CSV-Dateien

  • spaltenbasierte Dateien (Parquet/ORC)

Amazon Redshift teilt Dateien mit mindestens 128 MB automatisch in Blöcke auf. Spaltenbasierte Dateien, insbesondere Parquet und ORC, werden nicht aufgeteilt, wenn sie weniger als 128 MB umfassen. Redshift verwendet zum Laden der Daten parallel arbeitende Slices. Dadurch ergibt sich beim Laden eine hohe Leistung.

Laden von Daten aus Dateien, die nicht aufgeteilt werden können

Dateitypen wie JSON oder CSV werden, wenn sie mit anderen Komprimierungsalgorithmen wie z. B. GZIP komprimiert wurden, nicht automatisch aufgeteilt. In diesen Fällen empfehlen wir, die Daten manuell in mehrere kleinere Dateien von ungefähr gleicher Größe zwischen 1 MB und 1 GB nach der Komprimierung aufzuteilen. Nutzen Sie zudem als Anzahl der Dateien ein Vielfaches der Anzahl der Slices in Ihrem Cluster. Weitere Informationen zum Aufteilen Ihrer Daten auf mehrere Dateien und Beispiele zur Verwendung von COPY zum Laden von Daten finden Sie unter So laden Sie Daten aus Amazon S3.