Consideraciones y limitaciones al utilizar el conector de Spark - Amazon EMR

Consideraciones y limitaciones al utilizar el conector de Spark

  • Le sugerimos que active SSL para la conexión JDBC desde Spark en Amazon EMR a Amazon Redshift.

  • Le sugerimos que administre las credenciales del clúster de Amazon Redshift en AWS Secrets Manager como práctica recomendada. Consulte un ejemplo en Uso de AWS Secrets Manager para recuperar credenciales para una conexión a Amazon Redshift.

  • Le sugerimos que pase un rol de IAM con el parámetro aws_iam_role para el parámetro de autenticación de Amazon Redshift.

  • Actualmente, el parámetro tempformat no admite el formato Parquet.

  • El URI tempdir apunta a una ubicación de Amazon S3. Este directorio temporal no se limpia automáticamente y, por lo tanto, podría agregar costos adicionales.

  • Tenga en cuenta las siguientes recomendaciones para Amazon Redshift:

  • Tenga en cuenta las siguientes recomendaciones para Amazon S3:

    • Le sugerimos que bloquee el acceso público a los buckets de Amazon S3.

    • Le sugerimos que utilice el cifrado del servidor de Amazon S3 para cifrar los buckets de Amazon S3 utilizados.

    • Le sugerimos que utilice las políticas de ciclo de vida de Amazon S3 para definir las reglas de retención del bucket de Amazon S3.

    • Amazon EMR siempre verifica el código importado desde el código abierto a la imagen. Por motivos de seguridad, no admitimos los siguientes métodos de autenticación de Spark a Amazon S3:

      • Establecimiento de las claves de acceso de AWS en la clasificación de configuración hadoop-env

      • Codificación de las claves de acceso de AWS en el URI de tempdir

Para obtener más información sobre el uso del conector y sus parámetros compatibles, consulte los siguientes recursos: