本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 AWS Glue 分割區索引和篩選最佳化查詢
當 Athena 查詢已分割的資料表時,會擷取和篩選可用資料表分割區至與您的查詢相關的子集。隨著新資料和分割區的增加,處理分割區需要更長的時間,執行查詢的時間可能會增加。如果您有一個具有大量分割區的資料表,並且分割區的數量隨著時間的推移而增加,請考慮使用 AWS Glue 分割區索引和篩選。分割區索引允許 Athena 最佳化分割區處理,並改善高度已分割的資料表的查詢效能。在資料表屬性中設定分割區篩選,一共有兩個步驟:
-
在 AWS Glue 建立分割區索引。
-
啟用資料表的分割區篩選。
建立分割區索引
如需了解在 AWS Glue 建立分割區索引的步驟,請參閱《AWS Glue 開發人員指南》中的使用分割區索引。如需了解關於 AWS Glue 中分割區索引的限制,請參閱該頁面上的關於分割區索引區段。
啟用分割區篩選
如需啟用資料表的分割區篩選,您必須在 AWS Glue 設定新資料表屬性。如需了解如何在 AWS Glue 設定資料表屬性,請參閱設定分割區投影頁面。當您在 AWS Glue 編輯資料表詳細資訊時,新增下列鍵值對至 Table properties (資料表屬性) 區段:
-
對於 Key (索引鍵),新增
partition_filtering.enabled。 -
對於 Value (數值),新增
true
您可以將 partition_filtering.enabled 設定為 false,隨時停用此資料表上的分割區篩選。
完成上述步驟後,您可以返回 Athena 主控台以查詢資料。
如需有關使用分割區索引和篩選的詳細資訊,請參閱 AWS 大數據部落格中的使用 AWS Glue Data Catalog 分割區索引改善 Amazon Athena 查詢效能