本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建虚拟环境(可选)
如果您的用户脚本需要任何其他库,则可以选择创建虚拟环境来存储这些库。如果您不需要其他库,可以跳过此步骤。
使用具有本机扩展的库时,请记 PySpark 住在具有 ARM64 架构的 Linux 上 AWS Clean Rooms 运行。
以下过程演示如何使用基本 CLI 命令创建虚拟环境。
创建虚拟环境
-
打开终端或命令提示符。
-
添加以下内容:
# create and activate a python virtual environment python3 -m venv pyspark_venvsource source pyspark_venvsource/bin/activate # install the python packages pip3 install pandas # add packages here # package the virtual environment into an archive pip3 install venv-pack venv-pack -f -o pyspark_venv.tar.gz # optionally, remove the virtual environment directory deactivate rm -fr pyspark_venvsource
-
现在,您可以将此虚拟环境存储在 S3 中。有关更多信息,请参阅 在 S3 中存储用户脚本和虚拟环境。
有关使用 Docker 和 Amazon ECR 的更多信息,请参阅亚马逊 ECRUser 指南。