使用 Amazon S3 Tables 和資料表儲存貯體
Amazon S3 Tables 提供針對分析工作負載最佳化的 S3 儲存體,其功能旨在持續改善查詢效能,並降低資料表的儲存成本。S3 Tables 是專為儲存表格式資料而打造,例如每日購買交易、串流感應器資料或廣告曝光。表格式資料代表資料欄和資料列中的資料,例如資料庫資料表中的資料。
S3 Tables 中的資料會存放在新的儲存貯體類型中:資料表儲存貯體,其會將資料表儲存為子資源。資料表儲存貯體支援以 Apache Iceberg 格式儲存資料表。您可以使用標準 SQL 陳述式,透過支援 Iceberg 的查詢引擎 (例如 Amazon Athena、Amazon Redshift 和 Apache Spark) 來查詢資料表。
主題
S3 Tables 的功能
- 專為資料表所打造的儲存體
-
S3 資料表儲存貯體是專為資料表設計而成。相較於 S3 一般用途儲存貯體中的自我管理資料表,資料表儲存貯體可提供更高的每秒交易量 (TPS) 和更佳的查詢輸送量。資料表儲存貯體可提供與其他 Amazon S3 儲存貯體類型相同的耐用性、可用性和可擴展性。
- 的內建支援Apache Iceberg
-
資料表儲存貯體中的資料表會以 Apache Iceberg
格式儲存。您可以在支援 Iceberg 的查詢引擎中使用標準 SQL 來查詢這些資料表。Iceberg 具有可最佳化查詢效能的各種功能,包括結構描述演變和分割區演變。 您可以透過 Iceberg 變更資料的組織方式,使其可以隨著時間不斷發展,而無需重寫查詢或重建資料結構。Iceberg 旨在透過其對交易的支援,協助確保資料一致性和可靠性。為了協助您修正問題或執行時間歷程查詢,您可以追蹤資料如何隨時間變更,並復原至歷史版本。
- 自動化資料表最佳化
-
為了針對查詢最佳化資料表,S3 會持續執行自動維護操作,例如壓縮、快照管理和未參考檔案移除。這些操作會將較小的物件壓縮為數量較少但大小較大的檔案,以增加資料表效能。維護操作也會清理未使用的物件,以降低您的儲存成本。這種自動化維護操作可減少手動維護資料表的需求,簡化大規模資料湖的操作。您可以針對每個資料表和資料表儲存貯體自訂維護組態。
- 存取管理與安全性
-
您可以使用 AWS Organizations 中的 AWS Identity and Access Management (IAM) 和服務控制政策來管理資料表儲存貯體和個別資料表的存取權。S3 Tables 使用與 Amazon S3 不同的服務命名空間:s3tables 命名空間。因此,您可以專門為 S3 Tables 服務及其資源設計政策。您可以設計政策,以授予個別資料表、資料表命名空間內所有資料表或整個資料表儲存貯體的存取權。資料表儲存貯體一律會啟用所有 Amazon S3 封鎖公開存取設定,且無法停用。
- 與 AWS 分析服務整合
-
您可以透過 S3主控台自動整合 Amazon S3 資料表儲存貯體與 Amazon SageMaker 資料湖倉。這個整合可讓 AWS 分析服務自動探索,並透過 AWS Glue Data Catalog 存取資料表資料。整合之後,您可以利用分析服務 (例如 Amazon Athena、Amazon Redshift、Amazon Quick Suite 等) 來使用資料表。如需有關如何進行整合的詳細資訊,請參閱 將 Amazon S3 Tables 與 AWS 分析服務整合在一起。
相關服務
您可以搭配 S3 Tables 使用下列 AWS 服務,以支援您的特定分析應用程式。
-
Amazon Athena - Athena 是一種互動式查詢服務,可讓您使用標準 SQL 直接在 Amazon S3 中分析資料。您還可以使用 Athena 以互動方式使用 Apache Spark 執行資料分析,而不必規劃、設定或管理資源。當您在 Athena 執行 Apache Spark 應用程式時,可提交 Spark 程式碼進行處理,並直接接收結果。
-
AWS Glue - AWS Glue 是無伺服器資料整合服務,可讓您從多個來源探索、準備、移動和整合資料。您可以使用 AWS Glue 進行分析、機器學習 (ML) 和應用程式開發。AWS Glue 也包含用於撰寫、執行任務和實作業務工作流程的額外生產力和資料操作工具。
-
Amazon EMR – Amazon EMR 是受管叢集平台,可簡化在 AWS 上執行大數據架構 (例如 Apache Hadoop 與 Apache Spark) 的作業,以便處理和分析大量資料。
-
Amazon Redshift - Amazon Redshift 是一種在雲端的 PB 級資料倉儲服務。在沒有所佈建資料倉儲的所有組態的情況下,您可使用 Amazon Redshift Serverless 存取和分析資料。系統會自動佈建資源,並有智慧地擴展資料倉儲容量,即使是最嚴苛且無法預測的工作負載,也能為其提供快速的效能。資料倉儲閒置時不會產生費用,因此只需按實際用量支付費用。您可以在 Amazon Redshift 查詢編輯器 v2 或您最愛的商業智慧 (BI) 工具中立即載入資料並開始查詢。
-
Quick Suite – Quick Suite 是一種商業分析服務,可用來建立各種視覺化、執行臨機分析,並快速從資料中獲取商業見解。Quick Suite 會透過使用 Quick Suite 超快速的平行記憶體內計算引擎 (SPICE),順暢探索 AWS 資料來源並提供快速且反應靈敏的查詢效能。
-
AWS Lake Formation – Lake Formation 是一項受管服務,可簡化 設定、保護和管理資料湖的程序。Lake Formation 可協助您探索資料來源,然後為資料進行目錄編製、清理和轉換。有了 Lake Formation,您可以在 AWS Glue Data Catalog 中管理 Amazon S3 及其中繼資料上資料湖資料的精細存取控制。