Amazon Redshift ne prendra plus en charge la création de nouveaux Python à UDFs partir du patch 198. UDFs Le Python existant continuera de fonctionner jusqu'au 30 juin 2026. Pour plus d’informations, consultez le billet de blog .
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Déchargement de données semi-structurées
Avec Amazon Redshift, vous pouvez exporter des données semi-structurées de votre cluster Amazon Redshift vers Amazon S3 dans différents formats, notamment du texte, Apache Parquet, Apache ORC et Avro. Les sections suivantes vous guideront tout au long du processus de configuration et d’exécution des opérations de déchargement pour vos données semi-structurées dans Amazon Redshift.
- CSV or text formats
-
Vous pouvez décharger des tables contenant des colonnes de données SUPER sur Amazon S3 dans un format CSV (valeurs séparées par des virgules) ou texte. En utilisant une combinaison de clauses de navigation et de désimbrication, Amazon Redshift décharge les données hiérarchiques au format de données SUPER vers Amazon S3 au format CSV ou texte. Par la suite, vous pouvez créer des tables externes à partir des données déchargées et les interroger à l’aide de Redshift Spectrum. Pour plus d’informations sur l’utilisation de UNLOAD et les autorisations IAM requises, veuillez consulter UNLOAD.
L’exemple suivant décharge toutes les données d’une table Amazon Redshift vers un compartiment Amazon S3.
UNLOAD ('SELECT * FROM <redshift_table>')
TO '<S3_bucket>'
IAM_ROLE '<iam_role>'
DELIMITER AS '|'
GZIP
ALLOWOVERWRITE;
Contrairement à d’autres types de données où une chaîne définie par l’utilisateur représente une valeur nulle, Amazon Redshift exporte les colonnes de données SUPER en utilisant le format JSON et la représente comme une valeur nulle, comme déterminé par le format JSON. Par conséquent, les colonnes de données SUPER ignorent l’option NULL [AS] utilisée dans les commandes UNLOAD.
- Parquet format
-
Vous pouvez décharger des tables comportant des colonnes de données SUPER vers Amazon S3 au format Parquet. Amazon Redshift représente les colonnes SUPER dans Parquet en tant que type de données JSON. Cela permet de représenter des données semi-structurées au format Parquet. Vous pouvez interroger ces colonnes à l’aide de Redshift Spectrum ou les intégrer dans Amazon Redshift à l’aide de la commande COPY. Pour plus d’informations sur l’utilisation de UNLOAD et les autorisations IAM requises, veuillez consulter UNLOAD.
L’exemple suivant décharge toutes les données d’une table Amazon Redshift dans un compartiment Amazon S3 au format Parquet.
UNLOAD ('SELECT * FROM <Amazon Redshift_table>')
TO '<S3_bucket>'
IAM_ROLE '<iam_role>'
FORMAT PARQUET;