COPY depuis les formats de données en colonnes

COPY peut charger les données depuis Amazon S3 dans les formats en colonnes suivants :

ORC
Parquet

Pour des exemples d’utilisation de la commande COPY à partir de formats de données en colonnes, consultez Exemples de commandes COPY.

La commande COPY prend en charge les données mises en forme en colonnes avec les considérations suivantes :

Le compartiment Amazon S3 doit se trouver dans la même AWS région que la base de données Amazon Redshift.
Pour accéder à vos données Amazon S3 via un point de terminaison de VPC, configurez l’accès à l’aide de politiques IAM et de rôles IAM, comme décrit dans Utilisation d’Amazon Redshift Spectrum avec le routage VPC amélioré dans le Guide de gestion Amazon Redshift.
La commande COPY n’applique pas automatiquement l’encodage de compression.
Seuls les paramètres COPY suivants sont pris en charge :
- ACCEPTINVCHARS lors de la copie à partir d’un fichier ORC ou Parquet.
- FILLRECORD
- FROM
- IAM_ROLE
- CREDENTIALS
- STATUPDATE
- MANIFEST
- EXPLICIT_IDS
Si la commande COPY rencontre une erreur lors du chargement, la commande échoue. ACCEPTANYDATE et MAXERROR ne sont pas pris en charge pour les types de données en colonnes.
Les messages d’erreur sont envoyés au client SQL. Certaines erreurs sont consignées dans STL_LOAD_ERRORS et STL_ERROR.
La commande COPY insère les valeurs dans les colonnes de la table cible dans le même ordre que celui où les colonnes se trouvent dans les fichiers de données en colonnes. Le nombre de colonnes de la table cible et le nombre de colonnes du fichier de données doivent correspondre.
Si le fichier que vous spécifiez pour l’opération COPY inclut l’une des extensions ci-après, nous décompressons les données sans avoir besoin d’ajouter des paramètres :
- .gz
- .snappy
- .bz2
La commande COPY à partir des formats de fichiers Parquet et ORC utilise Redshift Spectrum et l’accès au compartiment. Pour utiliser la commande COPY pour ces formats, assurez-vous qu’aucune politique IAM ne bloque l’utilisation d’URL pré-signées Amazon S3. Les URL présignées générées par Amazon Redshift sont valides pendant 1 heure afin qu’Amazon Redshift dispose de suffisamment de temps pour charger tous les fichiers depuis le compartiment Amazon S3. Une URL présignée unique est générée pour chaque fichier scanné par COPY à partir de formats de données en colonnes. Pour les stratégies de compartiment qui incluent une action s3:signatureAge, veillez à définir la valeur sur au moins 3 600 000 millisecondes. Pour plus d’informations, consultez Utilisation d’Amazon Redshift Spectrum avec le routage VPC amélioré.
Le paramètre REGION n’est pas pris en charge avec COPY à partir de formats de données en colonnes. Même si votre compartiment Amazon S3 et votre base de données se trouvent dans le même emplacement Région AWS, vous pouvez rencontrer une erreur, telle que l'argument REGION n'est pas pris en charge pour le COPY basé sur PARQUET.
COPY à partir de formats colonnaires prend désormais en charge la mise à l’échelle de la simultanéité. Pour activer la mise à l’échelle de la simultanéité, consultez Configuration des files d’attente de mise à l’échelle de la simultanéité.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Exécution de la commande COPY depuis JSON

Chaînes DATEFORMAT et TIMEFORMAT