

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 EMR Serverless 准备数据
<a name="studio-notebooks-emr-serverless"></a>

从[SageMaker 分发映像](sagemaker-distribution.md)版本开始`1.10`，Amazon SageMaker Studio 与 EMR Serverless 集成。在 SageMaker Studio 的 JupyterLab 笔记本电脑中，数据科学家和数据工程师可以发现并连接 EMR Serverless 应用程序，然后以交互方式探索、可视化和准备大规模 Apache Spark 或 Apache Hive 工作负载。通过这种集成，可以大规模执行交互式数据预处理，为 ML 模型训练和部署做好准备。

具体而言，[SageMaker 人工智能分发](https://github.com/aws/sagemaker-distribution/tree/main/build_artifacts/v1)映像版本的更新版本`1.10`利用了 Apache Livy 和 EMR Serverless 之间的集成，允许通过笔记本连接到 Apache Livy 端点。[https://pypi.org/project/sagemaker-studio-analytics-extension/](https://pypi.org/project/sagemaker-studio-analytics-extension/) JupyterLab 本节假定事先了解 [EMR Serverless 交互式应用程序](https://docs.aws.amazon.com/EMR-Serverless-UserGuide/interactive-workloads.html)。

**重要**  
使用 Studio 时，对于从私有空间启动的应用程序，您只能发现并连接到 EMR Serverless JupyterLab 应用程序。确保 EMR 无服务器应用程序与您的 Studio 环境位于同一 AWS 区域。

## 先决条件
<a name="studio-set-up-emr-serverless-prerequisites"></a>

在开始在 JupyterLab 笔记本电脑上使用 EMR Serverless 运行交互式工作负载之前，请确保满足以下先决条件：

1. 您的 JupyterLab 空间必须使用 SageMaker 分发图片版本`1.10`或更高版本。

1. 使用 Amazon EMR 版本 `6.14.0` 或更高版本创建 EMR Serverless 交互式应用程序。您可以按照 [从 Studio 创建 EMR Serverless 应用程序](create-emr-serverless-application.md) 中的步骤，从 Studio 用户界面创建 EMR Serverless 应用程序。
**注意**  
对于最简单的设置，您可以在 Studio UI 中创建 EMR Serverless 应用程序，无需更改 **虚拟私有云（VPC）**选项的任何默认设置。这样就可以在域 VPC 中创建应用程序，而无需任何网络配置。在这种情况下，您可以跳过下面的网络设置步骤。

1. 查看 [为 Amazon EMR 集群配置网络访问权限](studio-notebooks-emr-networking.md) 中的联网和安全要求。具体来说，请确保您：
   + 在 Studio 账户和 EMR Serverless 账户之间建立 VPC 对等连接。
   + 在两个账户的专用子网路由表中添加路由。
   + 设置连接到 Studio 域的安全组，以允许出站流量，并配置计划运行 EMR Serverless 应用程序的 VPC 的安全组，以允许来自 Studio 实例安全组的入站 TCP 流量。

1. 要在 EMR Serverless 上访问您的交互式应用程序并在 SageMaker Studio 中运行从 JupyterLab 笔记本提交的工作负载，您必须分配特定的权限和角色。有关必要角色和权限的详细信息，请参阅 [设置权限以允许从 Studio 发布和启动 Amazon EMR 应用程序 SageMaker](studio-emr-serverless-permissions.md) 部分。

**Topics**
+ [先决条件](#studio-set-up-emr-serverless-prerequisites)
+ [设置权限以允许从 Studio 发布和启动 Amazon EMR 应用程序 SageMaker](studio-emr-serverless-permissions.md)
+ [从 Studio 创建 EMR Serverless 应用程序](create-emr-serverless-application.md)
+ [从 Studio 连接到 EMR Serverless 应用程序](connect-emr-serverless-application.md)
+ [从 Studio UI 停止或删除 EMR Serverless 应用程序](terminate-emr-serverless-application.md)