

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 重要功能和概念
<a name="features"></a>

## 日誌記錄和監控
<a name="logging-monitoring"></a>

AWS Glue 有數個[記錄和監控](https://docs.aws.amazon.com/glue/latest/dg/logging-and-monitoring.html)選項。根據預設， AWS Glue 會將日誌傳送至 Amazon CloudWatch 中的`aws-glue`日誌群組。這些日誌包含開始和結束時間、組態設定，以及可能發生的任何錯誤或警告等資訊。

此外， AWS Glue Spark ETL 任務提供下列選項，必須啟用這些選項才能進行進階監控：
+ [任務指標](https://docs.aws.amazon.com/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html)每 30 秒向 CloudWatch 中的 AWS Glue 命名空間報告任務特定的指標。這些任務特定的指標，例如已處理的記錄、總輸入/輸出資料大小和執行時間，可提供任務效能的洞見。他們可以協助識別瓶頸或最佳化組態的機會。
+ [持續記錄](https://docs.aws.amazon.com/glue/latest/dg/monitor-continuous-logging.html)會將即時 Apache Spark 任務日誌串流到 CloudWatch 中的`/aws-glue/jobs/logs-v2`日誌群組。透過使用即時日誌，您可以在 AWS Glue 任務執行時動態監控任務。
+ [Spark UI](https://docs.aws.amazon.com/glue/latest/dg/monitor-spark-ui.html) 提供 Spark 歷史記錄伺服器 Web 介面，用於檢視 Spark 任務的相關資訊，例如每個階段的事件時間表、定向無環圖和任務環境變數。持久的 Spark UI 事件日誌存放在 Amazon S3 中，您可以即時或在任務完成後使用它們。
+ [任務執行洞察](https://docs.aws.amazon.com/glue/latest/dg/monitor-job-insights.html)透過監聽常見的 Spark 例外狀況、執行根本原因分析，以及提供建議的動作來修正問題，簡化任務偵錯和最佳化。洞見會存放在 CloudWatch 中。

##  自動化
<a name="automation"></a>

AWS Glue 提供您自動化 ETL 任務的兩種主要方式：觸發和工作流程。

**AWS Glue 觸發**

觸發時， AWS Glue 觸發會啟動指定的任務和爬蟲程式。觸發可根據需求、根據預先定義的排程或根據特定事件觸發。您可以使用觸發條件來設計相依任務和爬蟲程式的鏈。如需詳細資訊，請參閱 [AWS Glue 觸發](https://docs.aws.amazon.com/glue/latest/dg/about-triggers.html)條件。 

**AWS Glue 工作流程**

對於更複雜的工作負載，您可以使用 AWS Glue 工作流程來建立導向非循環圖形，並在不同的 AWS Glue 實體 （觸發器、爬蟲程式和任務） 之間建立相依性。工作流程也提供統一的界面，您可以在其中共用參數、監控進度，以及疑難排解關聯實體的問題。

在 AWS Glue 工作流程中設定許多相關聯的實體可能會變得越來越複雜。開發人員可以建立[AWS Glue 藍圖](https://aws.amazon.com/blogs/big-data/simplify-data-integration-pipeline-development-using-aws-glue-custom-blueprints/)，與資料科學家和商業分析師共用複雜的資料管道。這些範本允許建立一致且可重複的 AWS Glue 工作流程，並抽象化技術詳細資訊。

若要進一步了解 AWS Glue 藍圖和工作流程，請參閱[使用藍圖和工作流程在其中執行複雜的 ETL 活動 AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/orchestrate-using-workflows.html)。

**與其他 AWS 服務協調 AWS Glue 任務**

如需更多自動化選項， 會與其他 AWS 服務 AWS Glue 整合，例如 AWS Lambda AWS Step Functions、 和 Amazon Managed Workflows for Apache Airflow (Amazon MWAA)。

如需 AWS Glue ETL 任務協同運作方法的詳細資訊，請參閱 [中的協同運作 AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/etl-jobs.html)。

## 任務書籤
<a name="bookmarks"></a>

中的任務書籤 AWS Glue 用於追蹤 ETL 任務的進度，這樣就不需要在後續任務執行中重新處理資料。啟用任務書籤時， AWS Glue 會維護已處理的資料記錄。然後，每次執行時，它只會處理資料來源中的新資料。如需詳細資訊，請參閱[使用任務書籤追蹤已處理的資料](https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html)。