最佳實務 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

最佳實務

我們建議您使用下列最佳實務來存取封存的資料:

  • 對於巨型封存資料集,我們建議在資料之上建立 AWS Glue 資料表,以便使用 Athena 和 Amazon Redshift 等查詢引擎進行讀取。Athena 和 Amazon Redshift 都提供水平擴展的查詢效能。他們也使用pay-per-query模型,在一次性查詢案例中具有成本效益。此外,Amazon Redshift 具有進階查詢加速器 (AQUA) 引擎,可加速讀取效能,無需額外費用。

  • 在 Amazon S3 中定期卸載的封存資料不應儲存為堆積傾印。相反地,它應該儲存為新的分割區。日期分割區會將資料分隔為日期維度 (例如 year=<value>/month=<value>/day=<value>)。這在兩種情況下非常有用:

    • 如果 AWS Glue 資料表是由 AWS Glue 爬蟲程式建立,則這些分割區會充當虛擬資料欄。這透過限制掃描到範圍查詢中分割區的資料來增強讀取效能。

    • 當您僅將物件子集還原為 S3 標準時,這有助於 S3 Glacier 還原操作。

  • 當儲存在 Amazon S3 中的封存資料實體分割時,AWS Glue 爬蟲程式會顯示絕佳的價值。每次將資料卸載為新的字首分割區時,爬蟲程式只會掃描新的分割區,並更新該分割區的中繼資料。如果資料表的結構描述變更,則會在分割區層級中繼資料中擷取這些變更。