本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
最佳实践
我们建议遵循以下访问归档数据的最佳实践:
-
对于庞大的归档数据集,我们建议在数据之上创建 AWS Glue 表,以便可以使用 Athena 和 Amazon Redshift 等查询引擎读取这些表。Athena 和 Amazon Redshift 都提供了查询性能的水平扩缩。他们还使用按查询付费的模式,这种模式在一次性查询场景中具有成本效益。此外,Amazon Redshift 还内置了 Advanced Query Accelerator(AQUA)引擎,无需额外成本即可提高读取性能。
-
定期在 Amazon S3 中卸载的归档数据不应存储为堆转储。相反,应将其另存为新分区。日期分区会将数据分成日期维度(例如
year=<value>/month=<value>/day=<value>)。这在两种情况下非常有益:-
如果 AWS Glue 表由 AWS Glue 爬网程序创建,则这些分区将充当伪列。这通过将扫描的数据限制在范围查询中的分区,来提高读取性能。
-
当您仅将对象的子集恢复为 S3 标准时,这有助于执行 S3 Glacier 恢复操作。
-
-
当保存在 Amazon S3 中的归档数据进行物理分区时,AWS Glue 爬网程序就能发挥巨大的价值。每次将该数据作为新的前缀分区卸载时,爬网程序只扫描新分区并更新该分区的元数据。如果表的架构更改,则这些更改将在分区级元数据中捕获。