Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Apache Spark dengan Amazon AI SageMaker
Amazon SageMaker AI Spark adalah pustaka Spark open source yang membantu Anda membangun pipeline machine learning (ML) Spark dengan AI. SageMaker Ini menyederhanakan integrasi tahap Spark ML dengan tahapan SageMaker AI, seperti pelatihan model dan hosting. Untuk informasi tentang SageMaker AI Spark, lihat repositori SageMaker AI Spark
Pustaka SageMaker AI Spark tersedia dalam Python dan Scala. Anda dapat menggunakan SageMaker AI Spark untuk melatih model dalam SageMaker AI menggunakan bingkai org.apache.spark.sql.DataFrame data di cluster Spark Anda. Setelah pelatihan model, Anda juga dapat meng-host model menggunakan layanan hosting SageMaker AI.
Perpustakaan SageMaker AI Spark,com.amazonaws.services.sagemaker.sparksdk, menyediakan kelas-kelas berikut, antara lain:
-
SageMakerEstimator—Memperluas antarmuka.org.apache.spark.ml.EstimatorAnda dapat menggunakan estimator ini untuk pelatihan model dalam SageMaker AI. -
KMeansSageMakerEstimator,PCASageMakerEstimator, danXGBoostSageMakerEstimator—MemperpanjangSageMakerEstimatorkelas. -
SageMakerModelMemperluas kelas.org.apache.spark.ml.ModelAnda dapat menggunakan iniSageMakerModeluntuk hosting model dan mendapatkan kesimpulan dalam SageMaker AI.
Untuk instalasi dan contoh perpustakaan SageMaker AI Spark, lihat SageMaker AI Spark untuk contoh Scala atauSumber daya untuk menggunakan SageMaker AI Spark untuk contoh Python PySpark ().
Jika Anda menggunakan Amazon EMR AWS untuk mengelola cluster Spark, lihat Apache Spark.
Topik
Integrasikan aplikasi Apache Spark Anda dengan AI SageMaker
Berikut ini adalah rangkuman tingkat tinggi dari langkah-langkah untuk mengintegrasikan aplikasi Apache Spark Anda dengan AI. SageMaker
-
Lanjutkan preprocessing data menggunakan pustaka Apache Spark yang Anda kenal. Dataset Anda tetap berada
DataFramedi cluster Spark Anda. Muat data Anda ke dalam fileDataFrame. Pra-proses sehingga Anda memilikifeatureskolom denganorg.apache.spark.ml.linalg.VectordariDoubles, danlabelkolom opsional dengan nilaiDoubletipe. -
Gunakan estimator di perpustakaan SageMaker AI Spark untuk melatih model Anda. Misalnya, jika Anda memilih algoritma k-means yang disediakan oleh SageMaker AI untuk pelatihan model, hubungi
KMeansSageMakerEstimator.fitmetode tersebut.Berikan Anda
DataFramesebagai masukan. Estimator mengembalikanSageMakerModelobjek.catatan
SageMakerModelmemperluas.org.apache.spark.ml.ModelfitMetode ini melakukan hal berikut:-
Mengkonversi input
DataFrameke format protobuf. Ia melakukannya dengan memilihlabelkolomfeaturesdan dari inputDataFrame. Kemudian mengunggah data protobuf ke bucket Amazon S3. Format protobuf efisien untuk pelatihan model dalam SageMaker AI. -
Memulai pelatihan model dalam SageMaker AI dengan mengirimkan
CreateTrainingJobpermintaan SageMaker AI. Setelah pelatihan model selesai, SageMaker AI menyimpan artefak model ke ember S3.SageMaker AI mengasumsikan IAM role yang Anda tentukan untuk pelatihan model untuk melakukan tugas atas nama Anda. Misalnya, ia menggunakan peran untuk membaca data pelatihan dari bucket S3 dan menulis artefak model ke ember.
-
Menciptakan dan mengembalikan
SageMakerModelobjek. Konstruktor melakukan tugas-tugas berikut, yang terkait dengan penerapan model Anda ke SageMaker AI.-
Mengirim
CreateModelpermintaan ke SageMaker AI. -
Mengirim
CreateEndpointConfigpermintaan ke SageMaker AI. -
Mengirim
CreateEndpointpermintaan ke SageMaker AI, yang kemudian meluncurkan sumber daya yang ditentukan, dan menghosting model pada mereka.
-
-
-
Anda bisa mendapatkan kesimpulan dari model Anda yang dihosting di SageMaker AI dengan.
SageMakerModel.transformBerikan masukan
DataFramedengan fitur sebagai input.transformMetode mengubahnya menjadi kesimpulan yangDataFramemengandung. Secara internal,transformmetode mengirimkan permintaan keInvokeEndpointSageMaker API untuk mendapatkan kesimpulan.transformMetode ini menambahkan kesimpulan ke input.DataFrame