Considérations et limites relatives à l'utilisation du connecteur Spark

Amazon Redshift ne prendra plus en charge la création de nouveaux Python UDFs à compter du 1er novembre 2025. Si vous souhaitez utiliser Python UDFs, créez la version UDFs antérieure à cette date. Le Python existant UDFs continuera à fonctionner normalement. Pour plus d'informations, consultez le billet de blog.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Intégration d'Amazon Redshift à Apache Spark

Apache Spark est un modèle distribué de programmation et d'infrastructure qui vous permet d'effectuer des opérations de machine learning, de traitement de flux ou d'analyse graphique. De manière analogue à Apache Hadoop, Spark est un système de traitement distribué open source, couramment utilisé pour les charges de travail de big data. Spark dispose d'un moteur d'exécution optimisé de graphes orientés acycliques dirigés (DAG) et met activement en cache les données en mémoire. Cela peut améliorer les performances, en particulier pour certains algorithmes et requêtes interactives.

Cette intégration vous fournit un connecteur Spark que vous pouvez utiliser pour créer des applications Apache Spark qui lisent et écrivent des données dans Amazon Redshift et Amazon Redshift sans serveur. Ces applications ne compromettent pas les performances des applications ni la cohérence transactionnelle des données. Cette intégration est automatiquement incluse dans Amazon EMR et AWS Glue, ce qui vous permet d'exécuter immédiatement des tâches Apache Spark qui accèdent à des données et les chargent dans Amazon Redshift dans le cadre de vos pipelines d'ingestion et de transformation de données.

Actuellement, vous pouvez utiliser les versions 3.3.0, 3.3.1, 3.3.2 et 3.4.0 de Spark avec cette intégration.

Cette intégration fournit les éléments suivants :

AWS Identity and Access Management Authentification (IAM). Pour plus d'informations, consultez Identity and Access Management dans Amazon Redshift.
Pushdown des prédicats et des requêtes pour améliorer les performances.
Types de données Amazon Redshift.
Connectivité à Amazon Redshift et Amazon Redshift sans serveur.

Considérations et limites relatives à l'utilisation du connecteur Spark

L'URI tempdir pointe vers un emplacement Amazon S3. Ce répertoire temporaire n'est pas nettoyé automatiquement et peut entraîner des frais supplémentaires. Nous vous recommandons d'utiliser les stratégies de cycle de vie d'Amazon S3 dans le guide d'utilisation d'Amazon Simple Storage Service pour définir les règles de conservation du compartiment Amazon S3.
Par défaut, les copies entre Amazon S3 et Redshift ne fonctionnent pas si le compartiment S3 et le cluster Redshift se trouvent dans des régions différentes. AWS Pour utiliser AWS des régions distinctes, définissez le tempdir_region paramètre sur la région du compartiment S3 utilisé pour letempdir.
Écritures entre régions entre S3 et Redshift en cas d'écriture de données Parquet à l'aide du paramètre tempformat.
Nous vous recommandons d'utiliser le chiffrement côté serveur Amazon S3 pour chiffrer les compartiments Amazon S3 utilisés.
Nous vous recommandons de bloquer l'accès public aux compartiments Amazon S3.
Nous recommandons que le cluster Amazon Redshift ne soit pas accessible au public.
Nous vous recommandons d'activer la journalisation des audits Amazon Redshift.
Nous vous recommandons d'activer le chiffrement au repos d'Amazon Redshift.
Nous vous recommandons d'activer le protocole SSL pour la connexion JDBC entre Spark sur Amazon EMR et Amazon Redshift.
Nous vous recommandons de transmettre un rôle IAM à l'aide du paramètre aws_iam_role pour le paramètre d'authentification Amazon Redshift.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Référence d’API

Authentification avec le connecteur Spark