最佳实践

我们建议遵循以下访问归档数据的最佳实践：

对于庞大的归档数据集，我们建议在数据之上创建 AWS Glue 表，以便可以使用 Athena 和 Amazon Redshift 等查询引擎读取这些表。Athena 和 Amazon Redshift 都提供了查询性能的水平扩缩。他们还使用一种 pay-per-query模型，这种模型在一次性查询场景中具有成本效益。此外，Amazon Redshift 还内置了 Advanced Query Accelerator（AQUA）引擎，无需额外成本即可提高读取性能。
定期在 Amazon S3 中卸载的归档数据不应存储为堆转储。相反，应将其另存为新分区。日期分区会将数据分成日期维度（例如 year=<value>/month=<value>/day=<value>）。这在两种情况下非常有益：
- 如果 AWS Glue 表由 AWS Glue 爬网程序创建，则这些分区将充当伪列。这通过将扫描的数据限制在范围查询中的分区，来提高读取性能。
- 当您仅将对象的子集恢复为 S3 标准时，这有助于执行 S3 Glacier 恢复操作。
当保存在 Amazon S3 中的归档数据进行物理分区时，AWS Glue 爬网程序就能发挥巨大的价值。每次将该数据作为新的前缀分区卸载时，爬网程序只扫描新分区并更新该分区的元数据。如果表的架构更改，则这些更改将在分区级元数据中捕获。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

S3 Glacier 存储类别

清理