Considérations et limites relatives à l'utilisation du connecteur Spark - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Considérations et limites relatives à l'utilisation du connecteur Spark

  • Nous vous conseillons d'activer le protocole SSL pour la connexion JDBC entre Spark on Amazon EMR et Amazon Redshift.

  • Nous vous suggérons de gérer les informations d'identification du cluster Amazon Redshift dans le AWS Secrets Manager cadre des meilleures pratiques. Reportez-vous à AWS Secrets Manager la section Utiliser pour récupérer les informations d'identification permettant de vous connecter à Amazon Redshift pour un exemple.

  • Nous vous suggérons de transmettre un rôle IAM avec le paramètre aws_iam_role d'authentification Amazon Redshift.

  • Le paramètre tempformat ne prend actuellement pas en charge le format Parquet.

  • L'URI tempdir renvoie à un emplacement Amazon S3. Ce répertoire temporaire n'est pas nettoyé automatiquement et peut donc entraîner des coûts supplémentaires.

  • Tenez compte des recommandations suivantes pour Amazon Redshift :

    • Nous vous suggérons de bloquer l'accès public au cluster Amazon Redshift.

    • Nous vous conseillons d'activer la journalisation des audits Amazon Redshift.

    • Nous vous conseillons d'activer le chiffrement au repos d'Amazon Redshift.

  • Tenez compte des recommandations suivantes pour Amazon S3 :

    • Nous vous conseillons de bloquer l'accès public aux compartiments Amazon S3.

    • Nous vous conseillons d'utiliser le chiffrement côté serveur Amazon S3 pour chiffrer les compartiments Amazon S3 utilisés.

    • Nous vous suggérons d'utiliser les politiques de cycle de vie d'Amazon S3 pour définir les règles de conservation pour le compartiment Amazon S3.

    • Amazon EMR vérifie toujours le code importé à partir d'une source ouverte dans l'image. Pour des raisons de sécurité, nous ne prenons pas en charge les méthodes d'authentification suivantes de Spark vers Amazon S3 :

      • Configuration des clés AWS d'accès dans la classification hadoop-env de configuration

      • Encodage des clés AWS d'accès dans l'tempdirURI

Pour plus d'informations sur l'utilisation du connecteur et les paramètres qu'il prend en charge, consultez les ressources suivantes :