Déchargement de données semi-structurées

Avec Amazon Redshift, vous pouvez exporter des données semi-structurées de votre cluster Amazon Redshift vers Amazon S3 dans différents formats, notamment du texte, Apache Parquet, Apache ORC et Avro. Les sections suivantes vous guideront tout au long du processus de configuration et d’exécution des opérations de déchargement pour vos données semi-structurées dans Amazon Redshift.

CSV or text formats

Vous pouvez décharger des tables contenant des colonnes de données SUPER sur Amazon S3 dans un format CSV (valeurs séparées par des virgules) ou texte. En utilisant une combinaison de clauses de navigation et de désimbrication, Amazon Redshift décharge les données hiérarchiques au format de données SUPER vers Amazon S3 au format CSV ou texte. Par la suite, vous pouvez créer des tables externes à partir des données déchargées et les interroger à l’aide de Redshift Spectrum. Pour plus d’informations sur l’utilisation de UNLOAD et les autorisations IAM requises, veuillez consulter UNLOAD.

L’exemple suivant décharge toutes les données d’une table Amazon Redshift vers un compartiment Amazon S3.


UNLOAD ('SELECT * FROM <redshift_table>')
TO '<S3_bucket>'
IAM_ROLE '<iam_role>'
DELIMITER AS '|'
GZIP
ALLOWOVERWRITE;

Contrairement à d’autres types de données où une chaîne définie par l’utilisateur représente une valeur nulle, Amazon Redshift exporte les colonnes de données SUPER en utilisant le format JSON et la représente comme une valeur nulle, comme déterminé par le format JSON. Par conséquent, les colonnes de données SUPER ignorent l’option NULL [AS] utilisée dans les commandes UNLOAD.

Parquet format

Vous pouvez décharger des tables comportant des colonnes de données SUPER vers Amazon S3 au format Parquet. Amazon Redshift représente les colonnes SUPER dans Parquet en tant que type de données JSON. Cela permet de représenter des données semi-structurées au format Parquet. Vous pouvez interroger ces colonnes à l’aide de Redshift Spectrum ou les intégrer dans Amazon Redshift à l’aide de la commande COPY. Pour plus d’informations sur l’utilisation de UNLOAD et les autorisations IAM requises, veuillez consulter UNLOAD.

L’exemple suivant décharge toutes les données d’une table Amazon Redshift dans un compartiment Amazon S3 au format Parquet.


UNLOAD ('SELECT * FROM <Amazon Redshift_table>')
TO '<S3_bucket>'
IAM_ROLE '<iam_role>'
FORMAT PARQUET;

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation de COPY pour charger des données

Interrogation de données semi-structurées