

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# EMR Serverless を使用してデータを準備する
<a name="studio-notebooks-emr-serverless"></a>

[SageMaker ディストリビューションイメージ](sagemaker-distribution.md)バージョン `1.10` 以降、Amazon SageMaker Studio は EMR Serverless と統合されています。SageMaker Studio の JupyterLab ノートブック内で、データサイエンティストとデータエンジニアは EMR Serverless アプリケーションを検出して接続し、大規模な Apache Spark または Apache Hive のワークロードをインタラクティブに探索、可視化、準備できます。この統合により、ML モデルのトレーニングとデプロイに備えて、インタラクティブなデータ前処理を大規模に実行できます。

具体的には、[SageMaker ディストリビューション](https://github.com/aws/sagemaker-distribution/tree/main/build_artifacts/v1) イメージバージョン `1.10` の [https://pypi.org/project/sagemaker-studio-analytics-extension/](https://pypi.org/project/sagemaker-studio-analytics-extension/) のアップデートバージョンは、Apache Livy と EMR Serverless の統合を活用して、JupyterLab ノートブックを介して Apache Livy エンドポイントに接続することを許可します。このセクションでは、[EMR Serverless インタラクティブアプリケーション](https://docs.aws.amazon.com/EMR-Serverless-UserGuide/interactive-workloads.html)の事前知識があることを前提としています。

**重要**  
Studio を使用する場合、プライベートスペースから起動された JupyterLab アプリケーションの EMR Serverless アプリケーションのみを検出して接続できます。EMR Serverless アプリケーションが Studio 環境と同じ AWS リージョンにあることを確認します。

## 前提条件
<a name="studio-set-up-emr-serverless-prerequisites"></a>

JupyterLab ノートブックから EMR Serverless を使用してインタラクティブワークロードの実行を開始する前に、以下の前提条件を満たしていることを確認する必要があります。

1. JupyterLab スペースでは、SageMaker Distribution イメージバージョン `1.10` 以降を使用する必要があります。

1. Amazon EMR バージョン `6.14.0` 以降で EMR Serverless インタラクティブアプリケーションを作成します。「[Studio から EMR Serverless アプリケーションを作成する](create-emr-serverless-application.md)」の手順に従って、Studio ユーザーインターフェイスから EMR Serverless アプリケーションを作成できます。
**注記**  
最もシンプルなセットアップは、**仮想プライベートクラウド (VPC)** オプションのデフォルト設定を変更せずに Studio UI で EMR Serverless アプリケーションを作成する方法です。これにより、ネットワーク設定を行う必要なく、ドメインの VPC 内にアプリケーションを作成できます。この場合は、以下のネットワーク設定セクションをスキップできます。

1. 「[Amazon EMR クラスターのネットワークアクセスを設定する](studio-notebooks-emr-networking.md)」のネットワークおよびセキュリティ要件を確認してください。具体的には、以下を確認してください。
   + Studio アカウントと EMR Serverless アカウントの間に VPC ピアリング接続を確立します。
   + 両方のアカウントのプライベートサブネットルートテーブルにルートを追加します。
   + Studio ドメインにアタッチされたセキュリティグループを設定してアウトバウンドトラフィックを許可し、EMR Serverless アプリケーションを実行する予定の VPC のセキュリティグループを設定して、Studio インスタンスのセキュリティグループからのインバウンド TCP トラフィックを許可します。

1. EMR Serverless 上のインタラクティブアプリケーションにアクセスして、SageMaker Studio の JupyterLab ノートブックから送信されたワークロードを実行するには、特定のアクセス許可とロールを割り当てる必要があります。必要なロールとアクセス許可の詳細については、「[SageMaker Studio からの Amazon EMR アプリケーションの一覧表示と起動を有効にするアクセス許可を設定する](studio-emr-serverless-permissions.md)」セクションを参照してください。

**Topics**
+ [前提条件](#studio-set-up-emr-serverless-prerequisites)
+ [SageMaker Studio からの Amazon EMR アプリケーションの一覧表示と起動を有効にするアクセス許可を設定する](studio-emr-serverless-permissions.md)
+ [Studio から EMR Serverless アプリケーションを作成する](create-emr-serverless-application.md)
+ [Studio から EMR Serverless アプリケーションに接続する](connect-emr-serverless-application.md)
+ [Studio UI から EMR Serverless アプリケーションを停止または削除する](terminate-emr-serverless-application.md)