Visual ETL ジョブの作成 - AWS Glue

Visual ETL ジョブの作成

AWS Glue Studio で Visual ETL ジョブを作成する

AWS Glue Studio では、AWS Glue で抽出、変換、ロード (ETL) ジョブを作成、実行、監視するためのビジュアルインターフェイスが提供されています。AWS Glue でのジョブは、抽出、変換、ロード (ETL) 作業を実行するビジネスロジックで構成されます。AWS Glue Studio を使用すると、データ変換ワークフローを視覚的に作成し、AWS Glue の Apache Spark ベースのサーバーレス ETL エンジン上でそれらをシームレスに実行することができます。ドラッグアンドドロップインターフェイスを使用して、さまざまなデータストアやストリーム間でデータを移動して変換するジョブを作成できるため、Spark を学ぶ必要も、コードを記述する必要もありません。

AWS Glue ジョブには、ソースデータに接続して処理し、データターゲットに書き出すスクリプトがカプセル化されています。通常、ジョブは、抽出、変換、ロード (ETL) スクリプトを実行します。ジョブは、Apache Spark および Ray ランタイム環境向けに設計されたスクリプトを実行できます。ジョブは、汎用 Python スクリプト (Python シェルジョブ) も実行できます。AWS Glue トリガーは、スケジュールやイベントに基づいて、またはオンデマンドでジョブを開始できます。ジョブ実行をモニタリングすると、完了ステータス、継続時間、開始時間などのランタイムメトリクスを知ることができます。

AWS Glue で生成されたスクリプトを使用することも、独自のスクリプトを使用することもできます。ソーススキーマとターゲット位置またはスキーマを指定すると、AWS Glue Studio コードジェネレーターで Apache Spark API (PySpark) スクリプトを自動的に作成できます。このスクリプトを出発点として使用し、目標に合わせて編集できます。

AWS Glue では出力ファイルを複数のデータ形式で書き込むことができます。各ジョブタイプは異なる出力形式をサポートしている場合があります。一部のデータ形式では、一般的な圧縮形式を記述できます。

AWS コンソールでの AWS Glue ジョブの管理

既存のジョブを表示するには、AWS Management Console にサインインし、AWS Glue コンソール (https://console.aws.amazon.com/glue/) を開きます。その後、 の [ジョブAWS Glue] タブを選択します。[Jobs] (ジョブ) リストは、ジョブが最後に変更されたとき各ジョブに関連付けられたスクリプトの場所、および現在のジョブのブックマークオプションを表示します。

コンソールの [ETLAWS Glue] セクションでジョブを作成できます。新しいジョブの作成中またはジョブの保存後、can AWS Glue Studio を使用して、ETL ジョブを変更できます。これを行うには、ビジュアルエディタでノードを編集するか、デベロッパーモードでジョブスクリプトを編集します。ビジュアルエディタでノードを追加および削除して、より複雑な ETL ジョブを作成することもできます。

AWS Glue Studio でジョブを作成するための次のステップ

ジョブのノードを設定するには、ビジュアルジョブエディタを使用します。各ノードは、ソース位置からのデータの読み取り、データへの変換の適用などのアクションに対応しています。ジョブに追加する各ノードには、データの場所または変換に関する情報を指定するためのプロパティがあります。

ジョブを作成および管理するための次のステップは、以下のとおりです。

Amazon SageMaker を使用して Visual ETL フローを構築する

Amazon SageMaker Unified Studio ワークフローを使用すると、Amazon SageMaker Unified Studio で一連のタスクをセットアップして実行することができます。Amazon SageMaker Unified Studio ワークフローは Apache Airflow を使用してデータ処理手順をモデル化し、Amazon SageMaker Unified Studio のコードアーティファクトをオーケストレーションします。詳細については、「Using workflows in Amazon SageMaker Unified Studio」を参照してください。