기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Glue대화형 세션을 사용한 데이터 준비
AWS Glue 대화형 세션은 데이터 레이크 및 데이터 파이프라인에 저장할 데이터를 수집, 변환, 정리 및 준비하기 위해 사용할 수 있는 서버리스 서비스입니다. AWS Glue 대화형 세션은 복잡한 컴퓨팅 클러스터 인프라를 프로비저닝하고 관리할 필요 없이 전용 데이터 처리 장치(DPU)에서 몇 초 만에 초기화할 수 있는 온디맨드 서버리스 Apache Spark 런타임 환경을 제공합니다. 초기화 후 Studio 또는 Studio Classic 노트북에서 바로 AWS Glue데이터 카탈로그를 검색하고, 대규모 쿼리를 실행하고AWS Lake Formation,에서 관리하는 데이터에 액세스하고, Spark를 사용하여 대화형으로 데이터를 분석하고 준비할 수 있습니다. 그런 다음 준비된 데이터를 사용하여 SageMaker Studio 또는 Studio Classic 내에서 특별히 구축된 ML 도구를 사용하여 모델을 훈련, 조정 및 배포할 수 있습니다. 구성 가능성과 유연성을 중간 수준으로 제어하는 서버리스 Spark 서비스를 원하는 경우 데이터 준비 워크로드에 AWS Glue대화형 세션을 고려해야 합니다.
Studio 또는 Studio Classic에서 JupyterLab 노트북을 시작하여 AWS Glue대화형 세션을 시작할 수 있습니다. 노트북을 시작할 때 기본 제공 Glue
PySpark and Ray 또는 Glue Spark 커널을 선택하세요. 그러면 대화형 서버리스 Spark 세션이 자동으로 시작됩니다. 컴퓨팅 클러스터 또는 인프라를 프로비저닝하거나 관리할 필요가 없습니다. 초기화 후 Studio 또는 Studio Classic 노트북 내에서 데이터를 탐색하고 상호 작용할 수 있습니다.
Studio 또는 Studio Classic에서 AWS Glue대화형 세션을 시작하기 전에 적절한 역할 및 정책을 설정해야 합니다. 또한 스토리지 Amazon S3 버킷과 같은 추가 리소스에 대한 액세스 권한을 제공해야 할 수 있습니다. 필수 IAM 정책에 관한 자세한 내용은 Studio 또는 Studio Classic의 AWS Glue대화형 세션에 대한 권한 섹션을 참조하세요.
Studio 및 Studio Classic은 AWS Glue대화형 세션에 대한 기본 구성을 제공하지만 Jupyter 매직 명령의 AWS Glue전체 카탈로그를 사용하여 환경을 추가로 사용자 지정할 수 있습니다. AWS Glue대화형 세션에서 사용할 수 있는 기본 및 추가 Jupyter 매직에 대한 자세한 내용은 섹션을 참조하세요Studio 또는 Studio Classic에서 AWS Glue대화형 세션 구성.
-
AWS Glue대화형 세션을 시작하는 Studio Classic 사용자의 경우 다음 이미지 및 커널 중에서 선택할 수 있습니다.
-
이미지:
SparkAnalytics 1.0,SparkAnalytics 2.0 -
커널:
Glue Python [PySpark and Ray]및Glue Spark
-
-
Studio 사용자의 경우 기본 SageMaker 배포 이미지
를 사용하고 Glue Python [PySpark and Ray]또는Glue Spark커널을 선택합니다.