本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Spark 连接器时的注意事项和限制
-
我们建议你为从亚马逊 EMR 上的 Spark 到 Amazon Redshift 的 JDBC 连接开启 SSL。
-
作为最佳实践,我们建议您在中管理 Amazon Redshift 集群 AWS Secrets Manager 的证书。有关示例,请参阅使用 AWS Secrets Manager 检索连接至亚马逊 Redshift 的凭证。
-
我们建议您传递一个带有 Amazon Redshift 身份验证参数参数参数
aws_iam_role的 IAM 角色。 -
参数
tempformat目前不支持 Parquet 格式。 -
tempdirURI 指向 Amazon S3 位置。此临时目录不会自动清理,因此可能会增加额外成本。 -
请考虑以下针对 Amazon Redshift 的建议:
-
我们建议您屏蔽对亚马逊 Redshift 集群的公开访问。
-
我们建议您开启亚马逊 Redshift 审核日志。
-
我们建议你开启亚马逊 Redshift 静态加密。
-
-
请考虑以下针对 Amazon S3 的建议:
-
我们建议您阻止公众访问 Amazon S3 存储桶。
-
我们建议您使用 Amazon S3 服务器端加密来加密所使用的 Amazon S3 存储桶。
-
我们建议您使用 Amazon S3 生命周期策略来定义 Amazon S3 存储桶的保留规则。
-
Amazon EMR 始终验证从开源导入到映像中的代码。出于安全原因,我们不支持从 Spark 到 Amazon S3 的以下身份验证方法:
-
在
hadoop-env配置分类中设置 AWS 访问密钥 -
在
tempdirURI 中对 AWS 访问密钥进行编码
-
-
有关使用连接器及其支持参数的更多信息,请参阅以下资源:
-
Amazon Redshift Management Guide(《Amazon Redshift 管理指南》)中的 Amazon Redshift integration for Apache Spark(适用于 Apache Spark 的 Amazon Redshift 集成)
-
Github 上的
spark-redshift社区存储库