AWS Glue でのサーバーレス ETL 入門
Dheer Toprani と Adnan Alvee、Amazon Web Services (AWS)
2024 年 3 月 (ドキュメント履歴)
Amazon Web Services (AWS) クラウド上で、AWS Glue は完全に管理されたサーバーレス環境であり、スケールの大きなデータの抽出、変換、ロード (ETL) を行うことができます。AWS Glue を使えば、データを分類し、クリーニングし、リッチ化し、さまざまなデータストアやデータストリームに費用対効果の高い方法で確実に移動させることができます。
AWS Glue はサーバーレスなので、サーバーのプロビジョニングや管理を心配する必要はありません。AWS Glue では、使用したリソースに対してのみ支払いが発生し、必要に応じて規模を拡大したり縮小したりできます。
AWS Glue のコンポーネントは次のとおりです。
-
AWS Glue ETL – AWS Glue ETL は、あるソースから別のソースへデータを抽出、変換、ロードするためのバッチおよびストリーミングオプションを提供します。
-
AWS Glue Data Catalog – Data Catalog は、すべてのデータ資産のメタデータを整理するための中央リポジトリです。Data Catalog は、データ分析サービス全体でデータ資産を検索、発見、共有できる統合インターフェイスを提供します。
-
AWS Glue DataBrew – DataBrew は、データを視覚的に探索、クリーニング、変換できるコーディング不要のデータ準備ツールです。250 種類以上のあらかじめ用意された変換の中から選択して、コードを記述せずにデータ準備タスクを自動化できます。
このガイドでは、AWS Glue がどのように機能するのか、どのように使い始めることができるのかなど、 を大まかに紹介します。自動化、モニタリング、他の AWS サービスとの統合など、AWS Glue ジョブをオーサリングする前に知っておくべき重要なコンセプトをカバーしています。次のステップセクションでは、AWS Glue でコードをすばやく記述できるようになります。すでに AWS Glue の使用経験がある場合は、ベストプラクティスのセクションが知識のギャップを埋めるのに役立ちます。このガイドを読み終える頃には、AWS Glue を効果的に使い始めるために必要な知識とリソースを身につけることができます。