使用 Amazon S3 表类数据存储服务和表存储桶
Amazon S3 表类数据存储服务提供针对分析工作负载进行优化的 S3 存储,其功能旨在持续提高查询性能并降低表的存储成本。S3 表类数据存储服务专为存储表数据而设计,例如每日购买交易、流传感器数据或广告展示次数。表数据以列和行表示数据,就像在数据库表中一样。
S3 表类数据存储服务中的数据存储在新的存储桶类型中:表存储桶,它将表存储为子资源。表存储桶支持以 Apache Iceberg 格式存储表。使用标准 SQL 语句,您可以通过支持 Iceberg 的查询引擎来查询表,例如 Amazon Athena、Amazon Redshift 和 Apache Spark。
主题
S3 表类数据存储服务的功能
- 专为表设计的存储
-
S3 表存储桶是专门为表设计的。与 S3 通用存储桶中的自行管理的表相比,表存储桶可提供更高的每秒事务数(TPS)和更好的查询吞吐量。表存储桶具有与其它 Amazon S3 存储桶类型相同的耐久性、可用性和可扩展性。
- 对 Apache Iceberg 的内置支持
-
表存储桶中的表以 Apache Iceberg
格式存储。您可以在支持 Iceberg 的查询引擎中使用标准 SQL 查询这些表。Iceberg 具有多种优化查询性能的功能,包括架构演变和分区演进。 借助 Iceberg,您可以更改数据的组织方式,使其能够随着时间推移而演变,而无需重写查询或重建数据结构。Iceberg 旨在通过其对事务的支持来协助确保数据一致性和可靠性。为了有助于更正问题或执行时空旅行查询,您可以跟踪数据如何随时间变化和回滚到历史版本。
- 自动表优化
-
为了优化您的表以进行查询,S3 会持续执行自动维护操作,例如压缩、快照管理和未引用文件移除。这些操作通过将较小的对象压缩成更少、更大的文件来提高表性能。维护操作还可以通过清理未使用的对象来降低存储成本。这种自动维护通过减少对手动表维护的需求,大规模简化了数据湖的运营。对于每个表和表存储桶,您可以自定义维护配置。
- 访问管理和安全性
-
您可以在 AWS Organizations 中使用 AWS Identity and Access Management(IAM)和 Service Control Policies 来管理对表存储桶和单个表的访问权限。S3 表类数据存储服务使用的服务命名空间与 Amazon S3 不同:s3tables 命名空间。因此,可以专门为 S3 表类数据存储服务及其资源设计策略。可以设计策略来授予对单个表、表命名空间内的所有表或整个表存储桶的访问权限。所有 Amazon S3 屏蔽公共访问权限设置均始终为表存储桶启用,无法禁用。
- 与 AWS 分析服务集成
-
可以通过 S3 控制台自动将 Amazon S3 表存储桶与 Amazon SageMaker 智能湖仓集成。这种集成支持 AWS 分析服务通过 AWS Glue Data Catalog 自动发现和访问表数据。集成后,可以使用诸如 Amazon Athena、Amazon Redshift、QuickSight 等分析服务来处理您的表。有关集成工作原理的更多信息,请参阅将 Amazon S3 表类数据存储服务与 AWS 分析服务结合使用。
相关服务
可以将以下 AWS 服务 与 S3 表类数据存储服务结合使用,来支持您的特定分析应用程序。
-
Amazon Athena:Athena 是一种交互式查询服务,可用于通过使用标准 SQL 直接分析 Amazon S3 中的数据。还可以使用 Athena,通过 Apache Spark 以交互方式运行数据分析,而无需规划、配置或管理资源。在 Athena 上运行 Apache Spark 应用程序时,您需要提交 Spark 代码以供处理并直接接收结果。
-
AWS Glue:AWS Glue 是一项无服务器数据集成服务,可让您轻松发现、准备、移动和集成来自多个来源的数据。可以使用 AWS Glue 进行分析、机器学习(ML)和应用程序开发。AWS Glue 还包括用于编写、运行任务和实施业务工作流程的额外生产率和数据操作工具。
-
Amazon EMR:Amazon EMR 是一个托管式集群平台,可简化在 AWS 上运行大数据框架(如 Apache Hadoop 和 Apache Spark)来处理和分析海量数据的过程。
-
Amazon Redshift:Amazon Redshift 是一项 PB 级云中数据仓库服务。可以使用 Amazon Redshift Serverless 来访问和分析数据,而无需对预置数据仓库执行所有配置操作。系统将自动预置资源,数据仓库的容量会智能扩展,即使面对要求最为苛刻且不可预测的工作负载也能提供高速性能。数据仓库空闲时不会产生费用,您只需为实际使用的资源付费。您可以在 Amazon Redshift 查询编辑器 v2 或您最喜欢的商业智能(BI,Business Intelligence)工具中,直接加载数据并开始查询。
-
QuickSight:QuickSight 是一项业务分析服务,可用于构建可视化内容,执行临时分析,并快速从您的数据中获得业务见解。QuickSight 无缝地发现 AWS 数据来源,并通过使用 QuickSight 超快、并行、内存、计算引擎(SPICE)提供快速的响应式查询性能。
-
AWS Lake Formation:Lake Formation 是一项托管式服务,可简化设置、保护和管理数据湖的流程。Lake Formation 可帮助您探索数据来源,然后对数据进行编目、清理和转换。借助 Lake Formation,可以对 Amazon S3 上的数据湖数据及其在 AWS Glue Data Catalog 中的元数据进行精细访问控制。