Spark ML을 사용하여 특성 처리 Scikit-Learn을 사용하여 특징 처리

SparkML 및 Scikit-learn을 사용하여 특징 처리

Spark 및 scikit-learn 사전 프로세서를 사용하면 Amazon SageMaker AI 기본 제공 알고리즘 및 사용자 지정 알고리즘으로 모델을 훈련하기 전에 데이터를 변환하고 특성을 추출할 수 있습니다.

Spark ML을 사용하여 특성 처리

SageMaker AI 노트북에서 서버리스 ETL(추출, 변환, 로드) 서비스인 AWS Glue를 사용하여 Spark ML 작업을 실행할 수 있습니다. 또한 기존 EMR 클러스터에 연결해 Amazon EMR 사용하여 SparkML 작업을 실행할 수 있습니다. 이렇게 하려면 SageMaker AI 노트북에서 호출할 수 있는 권한을 부여하는 AWS Identity and Access Management (IAM) 역할이 필요합니다 AWS Glue. SageMaker

참고

에서 AWS Glue 지원하는 Python 및 Spark 버전을 확인하려면 AWS Glue 릴리스 정보를 참조하세요.

엔지니어링 기능을 수행한 후에는 MLeap으로 Spark ML 작업을 패키지화하여 MLeap 컨테이너로 직렬화하여 추론 파이프라인에 추가할 수 있습니다. 외부 관리 Spark 클러스터를 사용할 필요가 없습니다. 이 접근 방식을 사용하면 행 샘플에서 테라바이트 단위의 데이터까지 원활하게 확장할 수 있습니다. 동일한 변환기가 훈련 및 추론 시 둘 다 작동하기 때문에 모델을 유지하기 위해 전처리 및 특징 엔지니어링 로직을 복제하거나 자체적인 1회성 솔루션을 개발할 필요가 없습니다. 추론 파이프라인을 사용하면 외부 인프라를 유지할 필요가 없으며 데이터 입력을 통해 예측을 직접 수행할 수 있습니다.

에서 Spark ML 작업을 실행하면 AWS Glue Spark ML 파이프라인이 MLeap 형식으로 직렬화됩니다. 그런 다음 SageMaker AI 추론 파이프라인의 SparkML 모델 제공 컨테이너와 함께 작업을 사용할 수 있습니다. MLeap은 기계 학습 파이프라인을 위한 직렬화 형식 및 실행 엔진으로, 파이프라인을 훈련하고 훈련된 파이프라인을 MLeap 번들이라는 직렬화된 파이프라인으로 내보내기 위해 Spark, Scikit-learn 및 TensorFlow를 지원합니다. 이러한 번들은 배치 모드 채점을 위해 Spark로, 실시간 API 서비스 강화를 위해 MLeap 런타임으로 다시 역직렬화할 수 있습니다.

Spark ML을 사용한 특성 처리 방법을 보여주는 예시는 Train an ML Model using Apache Spark in Amazon EMR and deploy in SageMaker AI를 참조하세요.

Scikit-Learn을 사용하여 특징 처리

Amazon SageMaker AI에서 scikit-learn 작업을 실행하여 컨테이너로 직접 패키징할 수 있습니다. Fisher's Iris flower data set에 대해 훈련하고 형태적 측정값을 기반으로 붓꽃의 품종을 예측하는 scikit-learn Featurizer 모델을 빌드하기 위한 Python 코드의 예제는 IRIS Training and Prediction with Sagemaker Scikit-learn을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

추론 파이프라인

파이프라인 모델 생성