Considérations et limites relatives à l'utilisation du connecteur Spark

Nous vous conseillons d'activer le protocole SSL pour la connexion JDBC entre Spark on Amazon EMR et Amazon Redshift.
Nous vous suggérons de gérer les informations d'identification du cluster Amazon Redshift dans le AWS Secrets Manager cadre des meilleures pratiques. Reportez-vous à AWS Secrets Manager la section Utiliser pour récupérer les informations d'identification permettant de vous connecter à Amazon Redshift pour un exemple.
Nous vous suggérons de transmettre un rôle IAM avec le paramètre aws_iam_role d'authentification Amazon Redshift.
Le paramètre tempformat ne prend actuellement pas en charge le format Parquet.
L'URI tempdir renvoie à un emplacement Amazon S3. Ce répertoire temporaire n'est pas nettoyé automatiquement et peut donc entraîner des coûts supplémentaires.
Tenez compte des recommandations suivantes pour Amazon Redshift :
- Nous vous suggérons de bloquer l'accès public au cluster Amazon Redshift.
- Nous vous conseillons d'activer la journalisation des audits Amazon Redshift.
- Nous vous conseillons d'activer le chiffrement au repos d'Amazon Redshift.
Tenez compte des recommandations suivantes pour Amazon S3 :
- Nous vous conseillons de bloquer l'accès public aux compartiments Amazon S3.
- Nous vous conseillons d'utiliser le chiffrement côté serveur Amazon S3 pour chiffrer les compartiments Amazon S3 utilisés.
- Nous vous suggérons d'utiliser les politiques de cycle de vie d'Amazon S3 pour définir les règles de conservation pour le compartiment Amazon S3.
- Amazon EMR vérifie toujours le code importé à partir d'une source ouverte dans l'image. Pour des raisons de sécurité, nous ne prenons pas en charge les méthodes d'authentification suivantes de Spark vers Amazon S3 :
  - Configuration des clés AWS d'accès dans la classification hadoop-env de configuration
  - Encodage des clés AWS d'accès dans l'tempdirURI

Pour plus d'informations sur l'utilisation du connecteur et les paramètres qu'il prend en charge, consultez les ressources suivantes :

Intégration d'Amazon Redshift pour Apache Spark dans le Guide de gestion Amazon Redshift
Le référentiel communautaire spark-redshift sur Github

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Lecture et écriture vers Amazon Redshift

Connexion à DynamoDB