使用 Amazon S3 Tables 和資料表儲存貯體 - Amazon Simple Storage Service

使用 Amazon S3 Tables 和資料表儲存貯體

Amazon S3 Tables 提供針對分析工作負載最佳化的 S3 儲存體,其功能旨在持續改善查詢效能,並降低資料表的儲存成本。S3 Tables 是專為儲存表格式資料而打造,例如每日購買交易、串流感應器資料或廣告曝光。表格式資料代表資料欄和資料列中的資料,例如資料庫資料表中的資料。

S3 Tables 中的資料會存放在新的儲存貯體類型中:資料表儲存貯體,其會將資料表儲存為子資源。資料表儲存貯體支援以 Apache Iceberg 格式儲存資料表。您可以使用標準 SQL 陳述式,透過支援 Iceberg 的查詢引擎 (例如 Amazon Athena、Amazon Redshift 和 Apache Spark) 來查詢資料表。

S3 Tables 的功能

專為資料表所打造的儲存體

S3 資料表儲存貯體是專為資料表設計而成。相較於 S3 一般用途儲存貯體中的自我管理資料表,資料表儲存貯體可提供更高的每秒交易量 (TPS) 和更佳的查詢輸送量。資料表儲存貯體可提供與其他 Amazon S3 儲存貯體類型相同的耐用性、可用性和可擴展性。

的內建支援Apache Iceberg

資料表儲存貯體中的資料表會以 Apache Iceberg 格式儲存。您可以在支援 Iceberg 的查詢引擎中使用標準 SQL 來查詢這些資料表。Iceberg 具有可最佳化查詢效能的各種功能,包括結構描述演變和分割區演變。

您可以透過 Iceberg 變更資料的組織方式,使其可以隨著時間不斷發展,而無需重寫查詢或重建資料結構。Iceberg 旨在透過其對交易的支援,協助確保資料一致性和可靠性。為了協助您修正問題或執行時間歷程查詢,您可以追蹤資料如何隨時間變更,並復原至歷史版本。

自動化資料表最佳化

為了針對查詢最佳化資料表,S3 會持續執行自動維護操作,例如壓縮、快照管理和未參考檔案移除。這些操作會將較小的物件壓縮為數量較少但大小較大的檔案,以增加資料表效能。維護操作也會清理未使用的物件,以降低您的儲存成本。這種自動化維護操作可減少手動維護資料表的需求,簡化大規模資料湖的操作。您可以針對每個資料表和資料表儲存貯體自訂維護組態。

存取管理與安全性

您可以使用 AWS Organizations 中的 AWS Identity and Access Management (IAM) 和服務控制政策來管理資料表儲存貯體和個別資料表的存取權。S3 Tables 使用與 Amazon S3 不同的服務命名空間:s3tables 命名空間。因此,您可以專門為 S3 Tables 服務及其資源設計政策。您可以設計政策,以授予個別資料表、資料表命名空間內所有資料表或整個資料表儲存貯體的存取權。資料表儲存貯體一律會啟用所有 Amazon S3 封鎖公開存取設定,且無法停用。

與 AWS 分析服務整合

您可以透過 S3主控台自動整合 Amazon S3 資料表儲存貯體與 Amazon SageMaker 資料湖倉。這個整合可讓 AWS 分析服務自動探索,並透過 AWS Glue Data Catalog 存取資料表資料。整合之後,您可以利用分析服務 (例如 Amazon Athena、Amazon Redshift、Amazon Quick Suite 等) 來使用資料表。如需有關如何進行整合的詳細資訊,請參閱 將 Amazon S3 Tables 與 AWS 分析服務整合在一起

相關服務

您可以搭配 S3 Tables 使用下列 AWS 服務,以支援您的特定分析應用程式。

  • Amazon Athena - Athena 是一種互動式查詢服務,可讓您使用標準 SQL 直接在 Amazon S3 中分析資料。您還可以使用 Athena 以互動方式使用 Apache Spark 執行資料分析,而不必規劃、設定或管理資源。當您在 Athena 執行 Apache Spark 應用程式時,可提交 Spark 程式碼進行處理,並直接接收結果。

  • AWS Glue - AWS Glue 是無伺服器資料整合服務,可讓您從多個來源探索、準備、移動和整合資料。您可以使用 AWS Glue 進行分析、機器學習 (ML) 和應用程式開發。AWS Glue 也包含用於撰寫、執行任務和實作業務工作流程的額外生產力和資料操作工具。

  • Amazon EMR – Amazon EMR 是受管叢集平台,可簡化在 AWS 上執行大數據架構 (例如 Apache Hadoop 與 Apache Spark) 的作業,以便處理和分析大量資料。

  • Amazon Redshift - Amazon Redshift 是一種在雲端的 PB 級資料倉儲服務。在沒有所佈建資料倉儲的所有組態的情況下,您可使用 Amazon Redshift Serverless 存取和分析資料。系統會自動佈建資源,並有智慧地擴展資料倉儲容量,即使是最嚴苛且無法預測的工作負載,也能為其提供快速的效能。資料倉儲閒置時不會產生費用,因此只需按實際用量支付費用。您可以在 Amazon Redshift 查詢編輯器 v2 或您最愛的商業智慧 (BI) 工具中立即載入資料並開始查詢。

  • Quick Suite – Quick Suite 是一種商業分析服務,可用來建立各種視覺化、執行臨機分析,並快速從資料中獲取商業見解。Quick Suite 會透過使用 Quick Suite 超快速的平行記憶體內計算引擎 (SPICE),順暢探索 AWS 資料來源並提供快速且反應靈敏的查詢效能。

  • AWS Lake Formation – Lake Formation 是一項受管服務,可簡化 設定、保護和管理資料湖的程序。Lake Formation 可協助您探索資料來源,然後為資料進行目錄編製、清理和轉換。有了 Lake Formation,您可以在 AWS Glue Data Catalog 中管理 Amazon S3 及其中繼資料上資料湖資料的精細存取控制。