

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 最佳实践
<a name="best-practices"></a>

我们建议遵循以下访问归档数据的最佳实践：
+ 对于庞大的归档数据集，我们建议在数据之上创建 AWS Glue 表，以便可以使用 Athena 和 Amazon Redshift 等查询引擎读取这些表。Athena 和 Amazon Redshift 都提供了查询性能的水平扩缩。他们还使用一种 pay-per-query模型，这种模型在一次性查询场景中具有成本效益。此外，Amazon Redshift 还内置了 Advanced Query Accelerator（AQUA）引擎，无需额外成本即可提高读取性能。
+ 定期在 Amazon S3 中卸载的归档数据不应存储为堆转储。相反，应将其另存为新分区。日期分区会将数据分成日期维度（例如 `year=<value>/month=<value>/day=<value>`）。这在两种情况下非常有益：
  + 如果 AWS Glue 表由 AWS Glue 爬网程序创建，则这些分区将充当伪列。这通过将扫描的数据限制在范围查询中的分区，来提高读取性能。
  + 当您仅将对象的子集恢复为 S3 标准时，这有助于执行 S3 Glacier 恢复操作。
+ 当保存在 Amazon S3 中的归档数据进行物理分区时，AWS Glue 爬网程序就能发挥巨大的价值。每次将该数据作为新的前缀分区卸载时，爬网程序只扫描新分区并更新该分区的元数据。如果表的架构更改，则这些更改将在分区级元数据中捕获。