

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 重要な特徴とコンセプト
<a name="features"></a>

## ログ記録とモニタリング
<a name="logging-monitoring"></a>

AWS Glue には、[ログ記録とモニタリング](https://docs.aws.amazon.com/glue/latest/dg/logging-and-monitoring.html)のオプションがいくつかあります。デフォルトでは、 は Amazon CloudWatch のロググループに`aws-glue`ログ AWS Glue を送信します。これらのログには、開始時刻や終了時刻、構成設定、発生した可能性のあるエラーや警告などの情報が含まれます。

さらに、 AWS Glue Spark ETL ジョブには以下のオプションがあり、高度なモニタリングを有効にする必要があります。
+ [ジョブメトリクス](https://docs.aws.amazon.com/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html)は、ジョブ固有のメトリクスを 30 秒ごとに CloudWatch AWS Glue の名前空間に報告します。処理されたレコード、入出力データの合計サイズ、ランタイムなど、これらのジョブ固有のメトリクスは、ジョブのパフォーマンスに関する洞察を提供します。ボトルネックや構成を最適化する機会を特定するのに役立ちます。
+ [継続ロギング](https://docs.aws.amazon.com/glue/latest/dg/monitor-continuous-logging.html)は、リアルタイムの Apache Spark ジョブのログを CloudWatch の `/aws-glue/jobs/logs-v2` ロググループにストリーミングします。リアルタイムログを使用すると、実行中に AWS Glue ジョブを動的にモニタリングできます。
+ [Spark UI](https://docs.aws.amazon.com/glue/latest/dg/monitor-spark-ui.html) には、各ステージのイベントタイムライン、有向非循環グラフ、ジョブ環境変数など、Spark ジョブに関する情報を表示するための Spark 履歴サーバーの Web インターフェイスが用意されています。永続的な Spark UI イベントログは Amazon S3 に保存され、リアルタイムで使用することも、ジョブの完了後に使用することもできます。
+ [Job Run Insights](https://docs.aws.amazon.com/glue/latest/dg/monitor-job-insights.html)は、一般的な Spark の例外を監視し、根本原因分析を行い、問題を解決するための推奨アクションを提供することで、ジョブのデバッグと最適化を簡素化します。インサイトは CloudWatch に保存されます。

## オートメーション
<a name="automation"></a>

AWS Glue には、ETL ジョブを自動化する 2 つの主な方法として、トリガーとワークフローがあります。

**AWS Glue トリガー**

起動すると、 AWS Glue トリガーは指定されたジョブとクローラを開始します。トリガーは、オンデマンドで、定義済みのスケジュールに基づいて、または特定のイベントに基づいて起動することができます。トリガーを使って、依存するジョブとクローラーの連鎖をデザインすることができます。詳細については、[AWS Glue トリガー](https://docs.aws.amazon.com/glue/latest/dg/about-triggers.html)を参照してください。 

**AWS Glue ワークフロー**

より複雑なワークロードの場合、 AWS Glue ワークフローを使用して有向非巡回グラフを作成し、個別の AWS Glue エンティティ (トリガー、クローラ、ジョブ) 間に依存関係を構築できます。ワークフローには、パラメータの共有、進行状況のモニタリング、関連するエンティティ間の問題のトラブルシューティングを行うことができる統合インターフェイスもあります。

 AWS Glue ワークフロー内で多くの関連エンティティを設定すると、ますます複雑になる可能性があります。開発者は、データサイエンティストやビジネスアナリストと複雑なデータパイプラインを共有するための[AWS Glue ブループリント](https://aws.amazon.com/blogs/big-data/simplify-data-integration-pipeline-development-using-aws-glue-custom-blueprints/)を作成することができます。これらのテンプレートを使用すると、 AWS Glue ワークフローを一貫して繰り返し作成し、技術的な詳細を抽象化できます。

 AWS Glue ブループリントとワークフローの詳細については、「 [でブループリントとワークフローを使用して複雑な ETL アクティビティを実行する AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/orchestrate-using-workflows.html)」を参照してください。

**他の AWS サービスと AWS Glue のジョブのオーケストレーション**

その他の自動化オプションについては、、、 AWS Lambda AWS Step Functions Amazon Managed Workflows for Apache Airflow (Amazon MWAA) などの他の AWS サービスと AWS Glue 統合します。

ETL ジョブのオーケストレーション方法の詳細については、 AWS Glue 「」の[「オーケストレーション AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/etl-jobs.html)」を参照してください。

## ジョブのブックマーク
<a name="bookmarks"></a>

のジョブブックマーク AWS Glue は、ETL ジョブの進行状況を追跡するために使用されます。これにより、後続のジョブ実行でデータを再処理する必要がなくなります。ジョブのブックマークを有効にすると、 は処理済みのデータの記録 AWS Glue を保持します。その後、実行するたびに、データソースの新しいデータのみが処理されます。詳細については、[「ジョブブックマークを使用して処理されたデータの追跡」](https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html)を参照してください。