本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
結構描述解除巢狀化和資料分割
使用 DynamoDB 和 SaaS 應用程式等 NoSQL 資料來源時,資料通常會為分析帶來獨特的挑戰:
-
相同資料表中的記錄可能有不同的結構描述
-
相同資料表中的巢狀記錄可以用不同的方式表示
-
地圖和陣列等複雜巢狀結構需要轉換才能高效查詢
-
需要最佳的資料組織,以確保大規模的查詢效能
AWS Glue 零 ETL 整合透過兩種強大的功能解決這些挑戰:
-
結構描述解除巢狀化:自動將複雜的巢狀資料結構扁平化為易於分析的格式,具有可設定的非巢狀層級,在保留資料結構和最佳化之間取得平衡,以簡化查詢。
-
資料分區:根據指定的資料欄或基於時間的維度將資料組織到邏輯分區中,透過在查詢執行期間啟用分區剔除來提高查詢效能並降低成本。
為了有效地查詢此類資料來源, AWS Glue Zero-ETL 為目標 AWS Glue 資料庫中複寫的來源資料提供out-of-the-box結構描述處理和分割結構描述。可以透過 CreateIntegrationTableProperty API 為每個資料表設定結構描述解除巢狀化設定和分區設定,從而對分析工作負載的資料結構和組織方式進行微調控制。
預設的解除巢狀和分區行為
-
AWS 未為目標資料表提供解除巢狀選項時,Glue Zero-ETL 預設為 FULL Unnest
-
AWS 未為目標資料表提供 PartitionSpec 時,Glue Zero-ETL 預設為儲存貯體分割