EMR Serverless を使用してデータを準備する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

EMR Serverless を使用してデータを準備する

SageMaker ディストリビューションイメージバージョン 1.10 以降、Amazon SageMaker Studio は EMR Serverless と統合されています。SageMaker Studio の JupyterLab ノートブック内で、データサイエンティストとデータエンジニアは EMR Serverless アプリケーションを検出して接続し、大規模な Apache Spark または Apache Hive のワークロードをインタラクティブに探索、可視化、準備できます。この統合により、ML モデルのトレーニングとデプロイに備えて、インタラクティブなデータ前処理を大規模に実行できます。

具体的には、SageMaker ディストリビューション イメージバージョン 1.10sagemaker-studio-analytics-extension のアップデートバージョンは、Apache Livy と EMR Serverless の統合を活用して、JupyterLab ノートブックを介して Apache Livy エンドポイントに接続することを許可します。このセクションでは、EMR Serverless インタラクティブアプリケーションの事前知識があることを前提としています。

重要

Studio を使用する場合、プライベートスペースから起動された JupyterLab アプリケーションの EMR Serverless アプリケーションのみを検出して接続できます。EMR Serverless アプリケーションが Studio 環境と同じAWSリージョンにあることを確認します。

前提条件

JupyterLab ノートブックから EMR Serverless を使用してインタラクティブワークロードの実行を開始する前に、以下の前提条件を満たしていることを確認する必要があります。

  1. JupyterLab スペースでは、SageMaker Distribution イメージバージョン 1.10 以降を使用する必要があります。

  2. Amazon EMR バージョン 6.14.0 以降で EMR Serverless インタラクティブアプリケーションを作成します。「Studio から EMR Serverless アプリケーションを作成する」の手順に従って、Studio ユーザーインターフェイスから EMR Serverless アプリケーションを作成できます。

    注記

    最もシンプルなセットアップは、仮想プライベートクラウド (VPC) オプションのデフォルト設定を変更せずに Studio UI で EMR Serverless アプリケーションを作成する方法です。これにより、ネットワーク設定を行う必要なく、ドメインの VPC 内にアプリケーションを作成できます。この場合は、以下のネットワーク設定セクションをスキップできます。

  3. Amazon EMR クラスターのネットワークアクセスを設定する」のネットワークおよびセキュリティ要件を確認してください。具体的には、以下を確認してください。

    • Studio アカウントと EMR Serverless アカウントの間に VPC ピアリング接続を確立します。

    • 両方のアカウントのプライベートサブネットルートテーブルにルートを追加します。

    • Studio ドメインにアタッチされたセキュリティグループを設定してアウトバウンドトラフィックを許可し、EMR Serverless アプリケーションを実行する予定の VPC のセキュリティグループを設定して、Studio インスタンスのセキュリティグループからのインバウンド TCP トラフィックを許可します。

  4. EMR Serverless 上のインタラクティブアプリケーションにアクセスして、SageMaker Studio の JupyterLab ノートブックから送信されたワークロードを実行するには、特定のアクセス許可とロールを割り当てる必要があります。必要なロールとアクセス許可の詳細については、「SageMaker Studio からの Amazon EMR アプリケーションの一覧表示と起動を有効にするアクセス許可を設定する」セクションを参照してください。