기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SparkML 및 Scikit-learn을 사용하여 특징 처리
Spark 및 scikit-learn 사전 프로세서를 사용하면 Amazon SageMaker AI 기본 제공 알고리즘 및 사용자 지정 알고리즘으로 모델을 훈련하기 전에 데이터를 변환하고 특성을 추출할 수 있습니다.
Spark ML을 사용하여 특성 처리
SageMaker AI 노트북에서 서버리스 ETL(추출, 변환, 로드) 서비스인 AWS Glue를 사용하여 Spark ML 작업을 실행할 수 있습니다. 또한 기존 EMR 클러스터에 연결해 Amazon EMR 사용하여 SparkML 작업을 실행할 수 있습니다. 이렇게 하려면 SageMaker AI 노트북에서 호출할 수 있는 권한을 부여하는 AWS Identity and Access Management(IAM) 역할이 필요합니다AWS Glue. SageMaker
참고
에서 AWS Glue지원하는 Python 및 Spark 버전을 확인하려면 AWSGlue 릴리스 정보를 참조하세요.
엔지니어링 기능을 수행한 후에는 MLeap으로 Spark ML 작업을 패키지화하여 MLeap 컨테이너로 직렬화하여 추론 파이프라인에 추가할 수 있습니다. 외부 관리 Spark 클러스터를 사용할 필요가 없습니다. 이 접근 방식을 사용하면 행 샘플에서 테라바이트 단위의 데이터까지 원활하게 확장할 수 있습니다. 동일한 변환기가 훈련 및 추론 시 둘 다 작동하기 때문에 모델을 유지하기 위해 전처리 및 특징 엔지니어링 로직을 복제하거나 자체적인 1회성 솔루션을 개발할 필요가 없습니다. 추론 파이프라인을 사용하면 외부 인프라를 유지할 필요가 없으며 데이터 입력을 통해 예측을 직접 수행할 수 있습니다.
에서 Spark ML 작업을 실행하면 AWS GlueSpark ML 파이프라인이 MLeap
Spark ML을 사용한 특성 처리 방법을 보여주는 예시는 Train an ML Model using Apache Spark in Amazon EMR and deploy in SageMaker AI
Scikit-Learn을 사용하여 특징 처리
Amazon SageMaker AI에서 scikit-learn 작업을 실행하여 컨테이너로 직접 패키징할 수 있습니다. Fisher's Iris flower data set