

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 AWS Glue 的概觀
<a name="start-console-overview"></a>

使用 AWS Glue，您可以將中繼資料存放在 中 AWS Glue Data Catalog。您可以使用這個中繼資料來協調 ETL 任務，轉換資料來源及載入資料倉儲或資料湖。下列步驟說明使用 AWS Glue 時的一般任務流程和您會用到的部分選項。

**注意**  
您可以使用下列步驟，或建立自動執行步驟 1 到 3 的工作流程。如需詳細資訊，請參閱[在 AWS Glue 中使用藍圖和工作流程來執行複雜的 ETL 活動](orchestrate-using-workflows.md)。

1. 在 中填入 AWS Glue Data Catalog 資料表定義。

   在主控台中，您可以針對持久性資料存放區新增爬蟲程式，以填入 AWS Glue Data Catalog。您可以從資料表清單或爬蟲程式清單中啟動 **Add crawler** (新增爬蟲程式) 精靈。您可以選擇一或多個資料存放區供爬蟲程式存取。也可以建立排程，以決定執行爬蟲程式的頻率。您可以為資料串流手動建立資料表定義，並定義串流屬性。

   也可以選擇性提供自訂分類器，以推斷資料的結構描述。建立自訂分類器時可用 ​ Grok 模式。不過，AWS Glue 提供了內建的分類器，可在自訂分類器無法識別您的資料時自動供爬蟲程式使用。定義爬蟲程式時，您不需要選擇分類器。如需 AWS Glue 中分類器的詳細資訊，請參閱[定義和管理分類器](add-classifier.md)。

   爬取某些類型的資料存放區需要連線，以提供驗證和位置資訊。如有需要，您可以建立連線，在 AWS Glue 主控台中提供這項必要資訊。

   爬蟲程式會讀取您的資料存放區，以及在 AWS Glue Data Catalog中建立資料定義和具名資料表。這些資料表會整理到您選擇的資料庫內。您也可以用手動建立的資料表填入資料目錄。透過這個方法提供結構描述和其他中繼資料，以在資料目錄中建立資料表定義。由於此方法有點複雜且容易出錯，因此最好由爬蟲程式建立資料表定義。

   如需 AWS Glue Data Catalog 使用資料表定義填入 的詳細資訊，請參閱 [建立資料表](tables-described.md)。

1. 定義任務，描述資料從來源到目標的轉換。

   一般而言，若要建立任務，您需要進行以下選擇：
   + 從 選擇資料表 AWS Glue Data Catalog 做為任務的來源。您的任務將使用此資料表定義來存取資料來源及解譯資料的格式。
   + 從 選擇資料表或位置 AWS Glue Data Catalog ，做為任務的目標。您的任務將使用此資訊來存取資料存放區。
   + 要求 AWS Glue​ 產生指令碼，將來源轉換為目標。AWS Glue​ 將產生程式碼，呼叫內建的轉換，將資料從來源結構描述轉換為目標結構描述格式。這些轉換會視需要執行像是資料複製、重新命名欄和篩選資料等操作來轉換資料。您可以在 AWS Glue 主控台修改指令碼。

   如需在 AWS Glue 定義任務的詳細資訊，請參閱[建置視覺化的 ETL 任務](author-job-glue.md)。

1. 執行任務，以轉換資料。

   您可以隨需執行任務，或在發生下列其中一種觸發時開始執行：
   + 以 Cron 排程為基礎的觸發程式。
   + 以事件為基礎的觸發；例如，成功完成另一個任務便能開始 AWS Glue 任務。
   + 可隨需開始任務的觸發。

   關於 AWS Glue 中觸發條件的詳細資訊，請參閱[使用觸發啟動任務和爬蟲程式](trigger-job.md)。

1. 監控排程的爬蟲程式和觸發的工作。

   AWS Glue 主控台可用來檢視下列內容：
   + 任務執行詳細資訊和錯誤。
   + 爬蟲程式執行詳細資訊和錯誤。
   + 有關 AWS Glue 活動的任何通知

   如需在 AWS Glue 中監控爬蟲程式和工作的詳細資訊，請參閱 [監控 AWS Glue](monitor-glue.md)。