As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Apache Spark com Amazon AI SageMaker
O Amazon SageMaker AI Spark é uma biblioteca Spark de código aberto que ajuda você a criar pipelines de aprendizado de máquina (ML) do Spark com IA. SageMaker Isso simplifica a integração dos estágios do Spark ML com os estágios de SageMaker IA, como treinamento e hospedagem de modelos. Para obter informações sobre o SageMaker AI Spark, consulte o repositório do SageMaker AI Spark
A biblioteca SageMaker AI Spark está disponível em Python e Scala. Você pode usar o SageMaker AI Spark para treinar modelos em SageMaker IA usando quadros de org.apache.spark.sql.DataFrame dados em seus clusters do Spark. Após o treinamento do modelo, você também pode hospedar o modelo usando serviços de hospedagem de SageMaker IA.
A biblioteca SageMaker AI Spark,com.amazonaws.services.sagemaker.sparksdk, fornece as seguintes classes, entre outras:
-
SageMakerEstimator: Estende a interfaceorg.apache.spark.ml.Estimator. Você pode usar esse estimador para treinamento de modelos em SageMaker IA. -
KMeansSageMakerEstimator,PCASageMakerEstimatoreXGBoostSageMakerEstimator: Estendem a classeSageMakerEstimator. -
SageMakerModel: Estende a classeorg.apache.spark.ml.Model. Você pode usar issoSageMakerModelpara hospedar modelos e obter inferências em SageMaker IA.
Para instalação e exemplos da biblioteca SageMaker AI Spark, consulte SageMaker Exemplos do AI Spark para Scala ouRecursos para usar exemplos do SageMaker AI Spark para Python (PySpark).
Se você usa o Amazon EMR AWS para gerenciar clusters do Spark, consulte Apache Spark.
Tópicos
Integre seu aplicativo Apache Spark com a IA SageMaker
A seguir, um resumo de alto nível das etapas para integrar seu aplicativo Apache Spark com a IA. SageMaker
-
Continue o pré-processamento de dados usando a biblioteca Apache Spark que você já conhece. O conjunto de dados permanece como um
DataFrameno seu cluster do Spark. Carregue seus dados em umDataFrame. Faça o pré-processamento deles para ter uma colunafeaturescomorg.apache.spark.ml.linalg.VectordeDoublese uma colunalabelopcional com valores do tipoDouble. -
Use o estimador na biblioteca do SageMaker AI Spark para treinar seu modelo. Por exemplo, se você escolher o algoritmo k-means fornecido pela SageMaker IA para treinamento de modelos, chame o
KMeansSageMakerEstimator.fitmétodo.Forneça seu
DataFramecomo entrada. O estimador retorna um objetoSageMakerModel.nota
SageMakerModelestende oorg.apache.spark.ml.Model.O método
fitfaz o seguinte:-
Converte a entrada
DataFramepara o formato protobuf. Isso é feito selecionando as colunasfeatureselabelda entradaDataFrame. Em seguida, ele carrega upload dos dados do protobuf em um bucket do Amazon S3. O formato protobuf é eficiente para treinamento de modelos em SageMaker IA. -
Inicia o treinamento de modelos em SageMaker IA enviando uma
CreateTrainingJobsolicitação de SageMaker IA. Após a conclusão do treinamento do modelo, a SageMaker IA salva os artefatos do modelo em um bucket S3.SageMaker A IA assume a função do IAM que você especificou para o treinamento de modelos para realizar tarefas em seu nome. Por exemplo, para ler dados de treinamento de um bucket do S3 e gravar artefatos de modelo em um bucket.
-
Cria e retorna um objeto
SageMakerModel. O construtor executa as tarefas a seguir, relacionadas à implantação do seu modelo na IA. SageMaker-
Envia uma
CreateModelsolicitação para a SageMaker IA. -
Envia uma
CreateEndpointConfigsolicitação para a SageMaker IA. -
Envia uma
CreateEndpointsolicitação para a SageMaker IA, que então inicia os recursos especificados e hospeda o modelo neles.
-
-
-
Você pode obter inferências do seu modelo hospedado na SageMaker IA com o.
SageMakerModel.transformForneça uma entrada
DataFramecom atributos como entrada. O métodotransformtransforma-a em umDataFrameque contém inferências. Internamente, otransformmétodo envia uma solicitação àInvokeEndpointSageMaker API para obter inferências. O métodotransformanexa as inferências à entradaDataFrame.