

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Studio で Amazon EMR Serverless アプリケーションまたは Amazon EMR クラスターを使用した大規模なデータ準備
<a name="studio-emr-data-preparation"></a>

Amazon SageMaker Studio と、レガシーバージョンの Studio Classic は、データサイエンティスト、機械学習 (ML) エンジニアに、大規模なデータ分析とデータ準備を実行するためのツールを提供しています。大量のデータの分析、変換、準備は、あらゆるデータサイエンスとMLワークフローの基本的なステップです。Studio と Studio Classic の両方に Amazon EMR との統合が組み込まれているため、ユーザーは JupyterLab ノートブック内で大規模なインタラクティブなデータ準備と機械学習ワークフローを管理できます。

[Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html) は [Apache Spark](https://aws.amazon.com/emr/features/spark)、[Apache Hive](https://aws.amazon.com/emr/features/hive)、[Presto](https://aws.amazon.com/emr/features/presto)、HBase、Flink などのオープンソースの分析フレームワークを AWS 上で使用して、ペタバイト規模の分散データ処理ジョブを実行するのに役立つリソースを備えたマネージドビッグデータプラットフォームです。Studio や Studio Classic を Amazon EMR と統合することで、JupyterLab や Studio Classic ノートブック内で、Amazon EMR クラスターを作成、参照、検出、接続できます。さらに、ノートブック内からワンクリックで Spark UI にアクセスして、Spark ワークロードをモニタリングしてデバッグすることもできます。

大量のデータを扱う、大規模、長期実行、または複雑なデータ処理などの要件がある場合、他のサービスとの大規模なカスタマイズと統合が必要な場合、広範なカスタマイズと他のサービスとの統合が必要な場合、カスタムアプリケーションを実行する必要がある場合、または Apache Spark のみでなく、さまざまな分散データ処理フレームワークを実行する予定がある場合は、データ準備ワークロードに Amazon EMR クラスターを検討する必要があります。

[SageMaker ディストリビューションイメージ](sagemaker-distribution.md) `1.10` 以降を使用する場合、SageMaker Studio の JupyterLab ノートブックからインタラクティブ [EMR Serverless](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html) アプリケーションに直接接続することもできます。Studio と EMR Serverless の統合により、Amazon EMR クラスターを設定、管理、スケーリングする必要なく、[Apache Spark](https://aws.amazon.com/emr/features/spark) や [Apache Hive](https://aws.amazon.com/emr/features/hive) などのオープンソースのビッグデータ分析フレームワークを実行できます。EMR Serverless は、EMR Serverless アプリケーションのニーズに基づいて、基盤となるコンピューティングリソースとメモリリソースを自動的にプロビジョンして管理します。EMR Serverless は、リソースを動的にスケールアップおよびスケールダウンします。アプリケーションが消費する vCPU、メモリ、ストレージリソースの量に基づいて料金が発生します。このようなサーバーレスアプローチにより、クラスター管理の労力なしで、JupyterLab ノートブックから[インタラクティブにデータ準備ワークロードを実行](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/interactive-workloads.html)しながら、高いインスタンス使用率とコスト効率を実現できます。

ワークロードが短期間または断続的であり、永続的なクラスターを必要としない場合、インフラストラクチャの管理のオーバーヘッドを回避して自動リソースプロビジョニングと終了によるサーバーレスエクスペリエンスを求める場合、またはインタラクティブなデータ準備タスクが主に Apache Spark を中心に展開される場合は、インタラクティブデータ準備ワークロードに EMR Serverless を検討する必要があります。

**Topics**
+ [Amazon EMR クラスターのネットワークアクセスを設定する](studio-notebooks-emr-networking.md)
+ [EMR Serverless を使用してデータを準備する](studio-notebooks-emr-serverless.md)
+ [Amazon EMR を使用したデータ準備](studio-notebooks-emr-cluster.md)