

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 用户指南
<a name="studio-emr-user-guide"></a>

本节介绍数据科学家和数据工程师如何从 Studio 或 Studio Classic 启动、发现、连接或终止 Amazon EMR 集群。

在用户列出或启动集群之前，管理员必须在 Studio 环境中配置必要的设置。有关管理员如何配置 Studio 环境以允许 Amazon EMR 集群的自配置和列表，请参阅 [管理员指南](studio-emr-admin-guide.md)。

**Topics**
+ [支持从 Studio 或 Studio Classic 连接到 Amazon EMR 集群的映像和内核](#studio-notebooks-emr-cluster-connect-kernels)
+ [自带映像](#studio-notebooks-emr-byoi)
+ [从 Studio 或 Studio Classic 启动 Amazon EMR 集群](studio-notebooks-launch-emr-cluster-from-template.md)
+ [从 Studio 或 Studio Classic 列出 Amazon EMR 集群](discover-emr-clusters.md)
+ [从 Studi SageMaker o 或 Studio Classic 连接到 Amazon EMR 集群](connect-emr-clusters.md)
+ [从 Studio 或 Studio Classic 终止 Amazon EMR 集群](terminate-emr-clusters.md)
+ [从 Studio 或 Studio Classic 访问 Spark UI](studio-notebooks-access-spark-ui.md)

## 支持从 Studio 或 Studio Classic 连接到 Amazon EMR 集群的映像和内核
<a name="studio-notebooks-emr-cluster-connect-kernels"></a>

随附以下图像和内核 [sagemaker-studio-analytics-extension](https://pypi.org/project/sagemaker-studio-analytics-extension/)，该 JupyterLab 扩展程序[使用](https://livy.apache.org/) Apache Livy 通过[SparkMagic](https://github.com/jupyter-incubator/sparkmagic)库连接到远程 Spark（Amazon EMR）集群。
+ **对于 Studio 用户：** SageMaker 分发版是用于数据科学的 Docker 环境，用作 JupyterLab笔记本实例的默认映像。所有版本的 [SageMaker AI 发行](https://github.com/aws/sagemaker-distribution)版都`sagemaker-studio-analytics-extension`已预装。
+ **对于 Studio Classic 用户：**以下映像预装了 `sagemaker-studio-analytics-extension`：
  + DataScience — Python 3 内核
  + DataScience 2.0 — Python 3 内核
  + DataScience 3.0 — Python 3 内核
  + SparkAnalytics 1.0 — SparkMagic 还有内 PySpark 核
  + SparkAnalytics 2.0 — SparkMagic 还有内 PySpark 核
  + SparkMagic — SparkMagic 和内 PySpark 核
  + PyTorch 1.8 — Python 3 内核
  + TensorFlow 2.6 — Python 3 内核
  + TensorFlow 2.11 — Python 3 内核

要使用其他内置映像或您自己的映像连接到 Amazon EMR 集群，请按照[自带映像](#studio-notebooks-emr-byoi)中的说明进行操作。

## 自带映像
<a name="studio-notebooks-emr-byoi"></a>

要在 Studio 或 Studio Classic 中使用自己的映像并允许您的笔记本电脑连接到 Amazon EMR 集群，请在内核中安装以下[sagemaker-studio-analytics-extension](https://pypi.org/project/sagemaker-studio-analytics-extension/)扩展程序。它支持通过库将 SageMaker Studio 或 Studio Classic 笔记本电脑连接到 Spark（Amazon EMR）集群。[SparkMagic](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-studio-magics.html)

```
pip install sparkmagic
pip install sagemaker-studio-sparkmagic-lib
pip install sagemaker-studio-analytics-extension
```

此外，要在连接 Amazon EMR 时使用 [Kerberos](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-kerberos.html) 身份验证，您必须安装 kinit 客户端。根据您的操作系统，安装 kinit 客户端的命令可能会有所不同。要自带 Ubuntu（基于 Debian）映像，请使用 `apt-get install -y -qq krb5-user` 命令。

有关在 SageMaker Studio 或 Studio Classic 中自[带图片的更多信息，请参阅自带 SageMaker 图片](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-byoi.html)。