COPY depuis les formats de données en colonnes - Amazon Redshift

Amazon Redshift ne prendra plus en charge la création de nouvelles fonctions Python définies par l’utilisateur à compter du 1er novembre 2025. Si vous souhaitez utiliser des fonctions Python définies par l’utilisateur, créez-les avant cette date. Les fonctions Python définies par l’utilisateur existantes continueront de fonctionner normalement. Pour plus d’informations, consultez le billet de blog .

COPY depuis les formats de données en colonnes

COPY peut charger les données depuis Amazon S3 dans les formats en colonnes suivants :

  • ORC

  • Parquet

Pour des exemples d’utilisation de la commande COPY à partir de formats de données en colonnes, consultez Exemples de commandes COPY.

La commande COPY prend en charge les données mises en forme en colonnes avec les considérations suivantes :

  • Le compartiment Amazon S3 doit se trouver dans la même région AWS que la base de données Amazon Redshift.

  • Pour accéder à vos données Amazon S3 via un point de terminaison de VPC, configurez l’accès à l’aide de politiques IAM et de rôles IAM, comme décrit dans Utilisation d’Amazon Redshift Spectrum avec le routage VPC amélioré dans le Guide de gestion Amazon Redshift.

  • La commande COPY n’applique pas automatiquement l’encodage de compression.

  • Seuls les paramètres COPY suivants sont pris en charge :

  • Si la commande COPY rencontre une erreur lors du chargement, la commande échoue. ACCEPTANYDATE et MAXERROR ne sont pas pris en charge pour les types de données en colonnes.

  • Les messages d’erreur sont envoyés au client SQL. Certaines erreurs sont consignées dans STL_LOAD_ERRORS et STL_ERROR.

  • La commande COPY insère les valeurs dans les colonnes de la table cible dans le même ordre que celui où les colonnes se trouvent dans les fichiers de données en colonnes. Le nombre de colonnes de la table cible et le nombre de colonnes du fichier de données doivent correspondre.

  • Si le fichier que vous spécifiez pour l’opération COPY inclut l’une des extensions ci-après, nous décompressons les données sans avoir besoin d’ajouter des paramètres :

    • .gz

    • .snappy

    • .bz2

  • La commande COPY à partir des formats de fichiers Parquet et ORC utilise Redshift Spectrum et l’accès au compartiment. Pour utiliser la commande COPY pour ces formats, assurez-vous qu’aucune politique IAM ne bloque l’utilisation d’URL pré-signées Amazon S3. Les URL présignées générées par Amazon Redshift sont valides pendant 1 heure afin qu’Amazon Redshift dispose de suffisamment de temps pour charger tous les fichiers depuis le compartiment Amazon S3. Une URL présignée unique est générée pour chaque fichier scanné par COPY à partir de formats de données en colonnes. Pour les stratégies de compartiment qui incluent une action s3:signatureAge, veillez à définir la valeur sur au moins 3 600 000 millisecondes. Pour plus d’informations, consultez Utilisation d’Amazon Redshift Spectrum avec le routage VPC amélioré.

  • Le paramètre REGION n’est pas pris en charge avec COPY à partir de formats de données en colonnes. Même si votre compartiment Amazon S3 et votre base de données se trouvent dans la même Région AWS, vous pouvez rencontrer une erreur, telle que l’argument REGION n’est pas pris en charge pour la commande COPY basée sur PARQUET.

  • COPY à partir de formats colonnaires prend désormais en charge la mise à l’échelle de la simultanéité. Pour activer la mise à l’échelle de la simultanéité, consultez Configuration des files d’attente de mise à l’échelle de la simultanéité.