Amazon Redshift unterstützt ab dem 1. November 2025 nicht mehr die Erstellung neuer Python-UDFs. Wenn Sie Python-UDFs verwenden möchten, erstellen Sie die UDFs vor diesem Datum. Bestehende Python-UDFs funktionieren weiterhin wie gewohnt. Weitere Informationen finden Sie im Blog-Posting
COPY aus spaltenbasierten Datenformaten
COPY kann Daten aus Amazon S3 in folgenden spaltenbasierten Formaten laden:
-
ORC
-
Parquet
Beispiele für die Verwendung von COPY aus spaltenbasierten Datenformaten finden Sie unter Beispiele für COPY.
COPY unterstützt Daten im Spaltenformat unter Berücksichtigung der folgenden Überlegungen:
-
Der Amazon-S3-Bucket muss sich in derselben AWS-Region wie die Amazon-Redshift-Datenbank befinden.
-
Um über einen VPC-Endpunkt auf Ihre Amazon-S3-Daten zugreifen zu können, richten Sie den Zugriff mithilfe von IAM-Richtlinien und IAM-Rollen ein, wie unter Verwendung von Amazon Redshift Spectrum mit Enhanced VPC-Routing im Amazon-Redshift-Verwaltungshandbuch beschrieben.
-
COPY wendet Kompressionskodierungen nicht automatisch an.
-
Es werden nur die folgenden COPY-Parameter unterstützt:
-
ACCEPTINVCHARS beim Kopieren aus einer ORC- oder Parquet-Datei.
-
-
Tritt beim Laden ein Fehler auf, schlägt der COPY-Befehl fehl. ACCEPTANYDATE und MAXERROR werden für spaltenbasierte Datentypen nicht unterstützt.
Fehlermeldungen werden an den SQL-Client gesendet. Einige Fehler werden in STL_LOAD_ERRORS und STL_ERROR protokolliert.
-
COPY fügt Werte in derselben Reihenfolge in die Spalten der Zieltabelle ein, in der die Spalten in den spaltenbasierten Datendateien vorkommen. Die Anzahl der Spalten in der Zieltabelle und die Anzahl der Spalten in der Datendatei müssen übereinstimmen.
-
Wenn die Datei, die Sie für die COPY-Operation angeben, eine der folgenden Erweiterungen besitzt, werden die Daten dekomprimiert, ohne dass Parameter hinzugefügt werden müssen:
.gz.snappy.bz2
COPY aus den Dateiformaten Parquet und ORC verwendet Redshift Spectrum und den Bucket-Zugriff. Um für diese Formate COPY zu verwenden, müssen Sie sicherstellen, dass die Verwendung vorsignierter Amazon-S3-URLs nicht von möglicherweise vorhandenen IAM-Richtlinien blockiert wird. Die von Amazon Redshift generierten vorsignierten URLs sind 1 Stunde gültig, sodass Amazon Redshift genügend Zeit hat, um alle Dateien aus dem Amazon-S3-Bucket zu laden. Für jede von COPY gescannte Datei aus spaltenbasierten Datenformaten wird eine eindeutige vorsignierte URL generiert. Sie müssen bei Bucket-Richtlinien, die die Aktion
s3:signatureAgeenthalten, den Wert auf mindestens 3.600.000 Millisekunden festlegen. Weitere Informationen finden Sie unter Verwenden von Amazon Redshift Spectrum mit Enhanced VPC Routing.-
Der Parameter REGION wird bei COPY aus spaltenbasierten Datenformaten nicht unterstützt. Auch wenn sich Ihr Amazon-S3-Bucket und Ihre Datenbank in derselben AWS-Region befinden, kann es zu einem Fehler kommen, z. B.
Das Argument REGION wird für PARQUET-basiertes COPY nicht unterstützt. -
COPY aus Spaltenformaten unterstützt jetzt die Parallelitätsskalierung. Informationen zur Aktivierung der Parallelitätsskalierung finden Sie unter Konfigurieren von Warteschlangen mit Parallelitätsskalierung.