

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS Glue Data Catalog 最佳實務
<a name="best-practice-catalog"></a>

 本節涵蓋有效管理和使用 的最佳實務 AWS Glue Data Catalog。它強調有效率的爬蟲程式使用、中繼資料組織、安全性、效能最佳化、自動化、資料控管，以及與其他 AWS 服務的整合等實務。
+ **有效使用編目程式** – 定期執行編目程式，以使 Data Catalog 與資料來源的變更保持同步。使用增量網路爬取來頻繁變更資料來源，以改善效能。設定編目程式，以在偵測到變更時自動新增分區或更新結構描述。
+ **組織和命名中繼資料表** – 在 Data Catalog 中為資料庫和資料表建立一致的命名慣例。將相關資料來源分組到邏輯資料庫或資料夾中，以便更好地組織。使用描述性名稱來傳達每個資料表的目的和內容。
+ **有效管理結構描述 ** – 利用 AWS Glue 爬蟲程式的結構描述推論功能。在套用結構描述變更之前，檢閱並更新這些變更，以避免破壞下游應用程式。使用結構描述演變功能來正常處理結構描述變更。
+ **保護 Data Catalog** – 啟用 Data Catalog 的靜態和傳輸中資料加密。實作精細分級的存取控制政策，以限制對敏感資料的存取。定期稽核和檢閱 Data Catalog 許可和活動日誌。
+ **與其他 AWS 服務整合** Data Catalog 使用 Data Catalog 做為 Amazon Athena、Redshift Spectrum 和 等服務的集中式中繼資料層 AWS Lake Formation。利用 AWS Glue ETL 任務將資料轉換和載入到各種資料存放區，同時在 Data Catalog 中維護中繼資料。
+  **監控和最佳化效能** Data Catalog 使用 Amazon CloudWatch 指標監控爬蟲程式和 ETL 任務的效能。在 Data Catalog 中分區大型資料集，以改善查詢效能。針對經常存取的中繼資料實作效能最佳化。
+  **使用 AWS Glue 文件和最佳實務保持更新** Data Catalog 定期檢查 AWS Glue 文件 AWS Glue 和資源，以取得最新的更新、最佳實務和建議。參加 AWS Glue 網路研討會、研討會和其他活動，向專家學習並隨時了解新功能。