在 AWS Glue 开启无服务器 ETL 入门
Dheer Toprani 和 Adnan Alvee,Amazon Web Services (AWS)
2024 年 3 月(文档历史记录)
在 Amazon Web Services(AWS)云上,AWS Glue 是完全托管式无服务器环境,您可以在其中大规模提取、转换、加载(ETL)数据。借助 AWS Glue,您能够轻松而经济高效地对数据进行分类、清理和扩充,并在各种数据存储和数据流之间可靠地移动数据。
AWS Glue 是无服务器结构,因此您不必担心服务器的预置或管理。借助 AWS Glue,您仅需为实际使用的资源付费,您可根据需要纵向扩展。
AWS Glue 包括以下组件:
-
AWS Glue ETL:AWS Glue ETL 提供批处理和流式传输选项,用于从一个源提取、转换、加载数据到另一个源。
-
AWS Glue Data Catalog :数据目录是一个中央存储库,用于组织所有数据资产的元数据。Data Catalog 提供了一个统一的界面,您可以在其中搜索、发现和共享数据分析服务中的数据资产。
-
AWS Glue DataBrew – DataBrew 是一款无代码数据准备工具,可用于直观地浏览、清理和转换数据。您可以从 250 多种预先构建的转换中进行选择,无需编写任何代码即可自动执行数据准备任务。
本指南从高层次角度对 AWS Glue 进行了介绍,包括它的工作原理以及如何开始使用它。它涵盖了您在创作 AWS Glue 作业之前需要了解的关键概念,例如自动化、监控以及与其他 AWS 服务的集成。后续步骤部分将帮助您在 AWS Glue 快速编写代码。如果您已经有一些使用 AWS Glue 的经验,则最佳实践部分将帮助您填补知识中的任何空白。在本指南结束时,您将掌握开始有效使用 AWS Glue 所需的知识和资源。