서버리스 ETL on AWS Glue 시작하기
디어 토프라니와 아드난 알비, Amazon Web Services(AWS)
2024년 3월(문서 기록)
Amazon Web Services(AWS) 클라우드의 AWS Glue는 데이터를 대규모로 추출, 전환, 적재(ETL) 할 수 있는 완전한 관리형 서버리스 환경입니다. AWS Glue를 통해 경제적으로 데이터를 분류, 정리, 보강하고 다양한 데이터 저장소와 스트림 간에 안정적으로 이동할 수 있습니다.
AWS Glue는 서버리스이므로 서버 프로비저닝이나 관리에 대해 걱정할 필요가 없습니다. AWS Glue에서는 사용한 리소스에 대해서만 비용을 지불하며 필요에 따라 스케일 업 또는 다운이 가능합니다.
AWS Glue는 다음과 같은 구성 요소로 이루어집니다.
-
AWS Glue ETL – AWS Glue ETL은 한 소스에서 다른 소스로 데이터를 추출, 전환, 적재하기 위한 배치 및 스트리밍 옵션을 제공합니다.
-
AWS Glue Data Catalog – Data Catalog는 모든 데이터 자산의 메타데이터를 구성하는 중앙 리포지토리입니다. Data Catalog는 데이터 분석 서비스 전반에서 데이터 자산을 검색, 탐색 및 공유할 수 있는 통합 인터페이스를 제공합니다.
-
AWS Glue DataBrew – DataBrew는 코드를 사용하지 않는 데이터 준비 도구로, 데이터를 시각적으로 탐색, 정리 및 변환하는 데 사용할 수 있습니다. 사전 빌드된 250개 이상의 변환 중에서 선택하여 코드를 작성하지 않고도 데이터 준비 작업을 자동화할 수 있습니다.
이 안내서는 작동 방식 및 사용을 시작하는 방법을 포함하여 AWS Glue에 대한 고급 수준의 소개를 제공합니다. 자동화, 모니터링, 다른 AWS 서비스와의 통합 등 AWS Glue 작업을 작성하기 전에 알아야 할 주요 개념을 다룹니다. 다음 단계 섹션은 AWS Glue에 코드를 작성하는 방법을 빠르게 설명합니다. 이미 AWS Glue를 사용해 본 경험이 있다면 모범 사례 섹션을 통해 부족한 지식을 보완할 수 있습니다. 이 안내서를 마치면 AWS Glue의 사용을 효과적으로 시작하는 데 필요한 지식과 리소스를 갖추게 될 것입니다.