翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SparkML と Scikit-learn による機能処理
Amazon SageMaker AI 組み込みアルゴリズムまたは独自のカスタムアルゴリズムを使ってモデルをトレーニングする前に、Spark および scikit-learn のプリプロセッサを使ってデータを変換し、特徴エンジニアリングをします。
Spark ML による機能処理
Spark ML ジョブは、AWS Glue、サーバーレス ETL (抽出、変換、ロード) サービスを使って SageMaker AI ノートブックから実行できます。既存の EMR クラスターに接続し、Amazon EMR で Spark ML ジョブを実行することもできます。これを行うには、SageMaker AI ノートブックから への呼び出しを行うためのアクセス許可を付与する AWS Identity and Access Management (IAM) ロールが必要です AWS Glue。
注記
AWS Glue サポートされている Python および Spark のバージョンを確認するには、AWS 「 Glue リリースノート」を参照してください。
エンジニアリング機能の後で、推論パイプラインに追加できる MLeap コンテナに、Spark ML ジョブを MLeap でパッケージ化およびシリアル化します。外部で管理された Spark クラスターを使用する必要はありません。この方法では、サンプルの行からテラバイト単位のデータにシームレスにスケールできます。同じトランスフォーマーがトレーニングおよび推論の両方で機能するため、事前処理や機能エンジニアリングロジックを複製したり、モデルを保持するための 1 回限りのソリューションを開発したりする必要はありません。推論パイプラインでは、外部のインフラストラクチャを維持する必要はなく、データ入力から直接予測を行うことができます。
Spark ML ジョブを実行すると AWS Glue、Spark ML パイプラインは MLeap
Spark ML を使用して特徴量処理を行う方法を示す例については、「Train an ML Model using Apache Spark in Amazon EMR and deploy in SageMaker AI
sci-kit learn を使って特徴を処理する
scikit-learn のジョブは Amazon SageMaker AI で直接実行し、コンテナにパッケージ化できます。フィッシャーのアイリスの花のデータセット