Amazon Redshift ne prendra plus en charge la création de nouvelles fonctions Python définies par l’utilisateur à compter du 1er novembre 2025. Si vous souhaitez utiliser des fonctions Python définies par l’utilisateur, créez-les avant cette date. Les fonctions Python définies par l’utilisateur existantes continueront de fonctionner normalement. Pour plus d’informations, consultez le billet de blog
Intégration d’Amazon Redshift à Apache Spark
Apache Spark
Cette intégration vous fournit un connecteur Spark que vous pouvez utiliser pour créer des applications Apache Spark qui lisent et écrivent des données dans Amazon Redshift et Amazon Redshift sans serveur. Ces applications ne compromettent pas les performances des applications ni la cohérence transactionnelle des données. Cette intégration est automatiquement incluse dans Amazon EMR et AWS Glue, ce qui vous permet d'exécuter immédiatement des tâches Apache Spark qui accèdent à des données et les chargent dans Amazon Redshift dans le cadre de vos pipelines d'ingestion et de transformation de données.
Actuellement, vous pouvez utiliser les versions 3.3.0, 3.3.1, 3.3.2 et 3.4.0 de Spark avec cette intégration.
Cette intégration fournit les éléments suivants :
-
AWS Identity and Access ManagementAuthentification IAM. Pour plus d'informations, consultez Identity and Access Management dans Amazon Redshift.
-
Pushdown des prédicats et des requêtes pour améliorer les performances.
-
Types de données Amazon Redshift.
-
Connectivité à Amazon Redshift et Amazon Redshift sans serveur.
Considérations et limites relatives à l'utilisation du connecteur Spark
-
L'URI tempdir pointe vers un emplacement Amazon S3. Ce répertoire temporaire n'est pas nettoyé automatiquement et peut entraîner des frais supplémentaires. Nous vous recommandons d'utiliser les stratégies de cycle de vie d'Amazon S3 dans le guide d'utilisation d'Amazon Simple Storage Service pour définir les règles de conservation du compartiment Amazon S3.
-
Par défaut, les copies entre Amazon S3 et Redshift ne fonctionnent pas si le compartiment S3 et le cluster Redshift se trouvent dans des régions AWS différentes. Pour utiliser des régions AWS distinctes, définissez le paramètre
tempdir_regionsur la région du compartiment S3 utilisé pourtempdir. -
Écritures entre régions entre S3 et Redshift en cas d'écriture de données Parquet à l'aide du paramètre
tempformat. -
Nous vous recommandons d'utiliser le chiffrement côté serveur Amazon S3 pour chiffrer les compartiments Amazon S3 utilisés.
-
Nous vous recommandons de bloquer l'accès public aux compartiments Amazon S3.
-
Nous recommandons que le cluster Amazon Redshift ne soit pas accessible au public.
-
Nous vous recommandons d'activer la journalisation des audits Amazon Redshift.
-
Nous vous recommandons d'activer le chiffrement au repos d'Amazon Redshift.
-
Nous vous recommandons d'activer le protocole SSL pour la connexion JDBC entre Spark sur Amazon EMR et Amazon Redshift.
-
Nous vous recommandons de transmettre un rôle IAM à l'aide du paramètre
aws_iam_rolepour le paramètre d'authentification Amazon Redshift.