修改 PySpark 会话参数 - Amazon EMR

修改 PySpark 会话参数

从 Amazon EMR on EKS 发行版 6.9.0 开始,在 Amazon EMR Studio 中,您可以通过在 EMR Notebook 单元格中执行 %%configure 魔术命令来调整与 PySpark 会话关联的 Spark 配置。

下例显示了一个示例负载,您可以使用该负载修改 Spark 驱动程序和执行程序的内存、内核和其他属性。对于 conf 设置,您可以配置 Apache Spark 配置文档中提及的任何 Spark 配置。

%%configure -f { "driverMemory": "16G", "driverCores": 4, "executorMemory" : "32G", "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }

下例显示了一个示例负载,您可以使用该负载向 Spark 运行时添加文件、PyFile 和 jar 依赖项。

%%configure -f { "files": "s3://amzn-s3-demo-bucket-emr-eks/sample_file.txt", "pyFiles": : "path-to-python-files", "jars" : "path-to-jars }