View a markdown version of this page

重要な特徴とコンセプト - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

重要な特徴とコンセプト

ログ記録とモニタリング

AWS Glue には、ログ記録とモニタリングのオプションがいくつかあります。デフォルトでは、 は Amazon CloudWatch のロググループにaws-glueログ AWS Glue を送信します。これらのログには、開始時刻や終了時刻、構成設定、発生した可能性のあるエラーや警告などの情報が含まれます。

さらに、 AWS Glue Spark ETL ジョブには以下のオプションがあり、高度なモニタリングを有効にする必要があります。

  • ジョブメトリクスは、ジョブ固有のメトリクスを 30 秒ごとに CloudWatch AWS Glue の名前空間に報告します。処理されたレコード、入出力データの合計サイズ、ランタイムなど、これらのジョブ固有のメトリクスは、ジョブのパフォーマンスに関する洞察を提供します。ボトルネックや構成を最適化する機会を特定するのに役立ちます。

  • 継続ロギングは、リアルタイムの Apache Spark ジョブのログを CloudWatch の /aws-glue/jobs/logs-v2 ロググループにストリーミングします。リアルタイムログを使用すると、実行中に AWS Glue ジョブを動的にモニタリングできます。

  • Spark UI には、各ステージのイベントタイムライン、有向非循環グラフ、ジョブ環境変数など、Spark ジョブに関する情報を表示するための Spark 履歴サーバーの Web インターフェイスが用意されています。永続的な Spark UI イベントログは Amazon S3 に保存され、リアルタイムで使用することも、ジョブの完了後に使用することもできます。

  • Job Run Insightsは、一般的な Spark の例外を監視し、根本原因分析を行い、問題を解決するための推奨アクションを提供することで、ジョブのデバッグと最適化を簡素化します。インサイトは CloudWatch に保存されます。

オートメーション

AWS Glue には、ETL ジョブを自動化する 2 つの主な方法として、トリガーとワークフローがあります。

AWS Glue トリガー

起動すると、 AWS Glue トリガーは指定されたジョブとクローラを開始します。トリガーは、オンデマンドで、定義済みのスケジュールに基づいて、または特定のイベントに基づいて起動することができます。トリガーを使って、依存するジョブとクローラーの連鎖をデザインすることができます。詳細については、AWS Glue トリガーを参照してください。 

AWS Glue ワークフロー

より複雑なワークロードの場合、 AWS Glue ワークフローを使用して有向非巡回グラフを作成し、個別の AWS Glue エンティティ (トリガー、クローラ、ジョブ) 間に依存関係を構築できます。ワークフローには、パラメータの共有、進行状況のモニタリング、関連するエンティティ間の問題のトラブルシューティングを行うことができる統合インターフェイスもあります。

AWS Glue ワークフロー内で多くの関連エンティティを設定すると、ますます複雑になる可能性があります。開発者は、データサイエンティストやビジネスアナリストと複雑なデータパイプラインを共有するためのAWS Glue ブループリントを作成することができます。これらのテンプレートを使用すると、 AWS Glue ワークフローを一貫して繰り返し作成し、技術的な詳細を抽象化できます。

AWS Glue ブループリントとワークフローの詳細については、「 でブループリントとワークフローを使用して複雑な ETL アクティビティを実行する AWS Glue」を参照してください。

他の AWS サービスと AWS Glue のジョブのオーケストレーション

その他の自動化オプションについては、、、 AWS Lambda AWS Step Functions Amazon Managed Workflows for Apache Airflow (Amazon MWAA) などの他の AWS サービスと AWS Glue 統合します。

ETL ジョブのオーケストレーション方法の詳細については、 AWS Glue 「」の「オーケストレーション AWS Glue」を参照してください。

ジョブのブックマーク

のジョブブックマーク AWS Glue は、ETL ジョブの進行状況を追跡するために使用されます。これにより、後続のジョブ実行でデータを再処理する必要がなくなります。ジョブのブックマークを有効にすると、 は処理済みのデータの記録 AWS Glue を保持します。その後、実行するたびに、データソースの新しいデータのみが処理されます。詳細については、「ジョブブックマークを使用して処理されたデータの追跡」を参照してください。