Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Intégration d'Amazon Redshift à Apache Spark
Apache Spark
Cette intégration vous fournit un connecteur Spark que vous pouvez utiliser pour créer des applications Apache Spark qui lisent et écrivent des données dans Amazon Redshift et Amazon Redshift sans serveur. Ces applications ne compromettent pas les performances des applications ni la cohérence transactionnelle des données. Cette intégration est automatiquement incluse dans Amazon EMR et AWS Glue, ce qui vous permet d'exécuter immédiatement des tâches Apache Spark qui accèdent à des données et les chargent dans Amazon Redshift dans le cadre de vos pipelines d'ingestion et de transformation de données.
Actuellement, vous pouvez utiliser les versions 3.3.0, 3.3.1, 3.3.2 et 3.4.0 de Spark avec cette intégration.
Cette intégration fournit les éléments suivants :
-
AWS Identity and Access Management Authentification (IAM). Pour plus d'informations, consultez Identity and Access Management dans Amazon Redshift.
-
Pushdown des prédicats et des requêtes pour améliorer les performances.
-
Types de données Amazon Redshift.
-
Connectivité à Amazon Redshift et Amazon Redshift sans serveur.
Considérations et limites relatives à l'utilisation du connecteur Spark
-
L'URI tempdir pointe vers un emplacement Amazon S3. Ce répertoire temporaire n'est pas nettoyé automatiquement et peut entraîner des frais supplémentaires. Nous vous recommandons d'utiliser les stratégies de cycle de vie d'Amazon S3 dans le guide d'utilisation d'Amazon Simple Storage Service pour définir les règles de conservation du compartiment Amazon S3.
-
Par défaut, les copies entre Amazon S3 et Redshift ne fonctionnent pas si le compartiment S3 et le cluster Redshift se trouvent dans des régions différentes. AWS Pour utiliser AWS des régions distinctes, définissez le
tempdir_region
paramètre sur la région du compartiment S3 utilisé pour letempdir
. -
Écritures entre régions entre S3 et Redshift en cas d'écriture de données Parquet à l'aide du paramètre
tempformat
. -
Nous vous recommandons d'utiliser le chiffrement côté serveur Amazon S3 pour chiffrer les compartiments Amazon S3 utilisés.
-
Nous vous recommandons de bloquer l'accès public aux compartiments Amazon S3.
-
Nous recommandons que le cluster Amazon Redshift ne soit pas accessible au public.
-
Nous vous recommandons d'activer la journalisation des audits Amazon Redshift.
-
Nous vous recommandons d'activer le chiffrement au repos d'Amazon Redshift.
-
Nous vous recommandons d'activer le protocole SSL pour la connexion JDBC entre Spark sur Amazon EMR et Amazon Redshift.
-
Nous vous recommandons de transmettre un rôle IAM à l'aide du paramètre
aws_iam_role
pour le paramètre d'authentification Amazon Redshift.