刪除孤立檔案 - AWS Glue

刪除孤立檔案

AWS Glue Data Catalog 可讓您從 Iceberg 資料表中移除孤立檔案。孤立檔案是存在於指定資料表位置下 Amazon S3 資料來源中的未參考檔案,其不會受到 Iceberg 資料表中繼資料追蹤,且早於您設定的存留期限制。由於壓縮、分區刪除或資料表重寫等操作失敗,這些孤立檔案可能會隨著時間累積,並佔用不必要的儲存空間。

AWS Glue 中的孤立檔案刪除最佳化工具會掃描資料表中繼資料和實際資料檔案,識別孤立檔案,並將其刪除以回收儲存空間。最佳化工具只會移除在最佳化工具建立日期之後建立並且也符合所設定刪除條件的檔案。絕對不會刪除在最佳化工具建立日期之前或當天建立的檔案。

孤立檔案刪除邏輯

  1. 日期檢查 – 比較檔案建立日期與最佳化工具建立日期。如果檔案早於或等於最佳化工具建立日期,則會略過檔案。

  2. 最佳化工具組態檢查 – 如果檔案晚於最佳化工具建立日期, 則會根據設定的存留期限制評估檔案。如果檔案符合刪除條件,最佳化工具會刪除其。如果檔案不符合條件,則會略過。

可以在 Data Catalog 中建立孤立檔案刪除資料表最佳化工具,以啟動孤立檔案刪除。

重要

根據預設,孤立檔案刪除會跨 AWS Glue 資料表位置評估檔案。雖然可以使用 API 參數來設定子字首以限制評估範圍,但必須確保資料表位置不包含來自其他資料來源或資料表的檔案。如果資料表位置與其他資料來源重疊,該服務可能會進行識別,並將不相關的檔案作為孤立檔案進行刪除。