读取 S3 Glacier 存储类别中的已归档 S3 对象
Amazon S3 Glacier 类别是特殊的存储类别,价格低廉,但检索时间长。与 S3 标准对象不同,S3 Glacier 对象不能作为 AWS Glue 表读取。要使数据可用于分析查询或报告,请首先恢复 S3 Glacier 对象。恢复是一个异步过程,会随着时间的推移而发生,并且具有保留期。恢复对象后,可以将它们作为 S3 标准对象复制到其他位置。保留期过后,恢复的对象会转换回 Amazon S3 Glacier。
使用 S3 批量操作
S3 批量操作支持在 Amazon S3 上进行大规模批量操作,可处理数十亿个包含 EB 级数据的对象。Amazon S3 跟踪进度、发送通知并存储所有操作的详细完成报告,从而提供完全托管、可审核的无服务器体验。
S3 批量操作支持恢复操作,该操作可启动以下存储层的 S3 对象恢复:
-
在 S3 Glacier Flexible Retrieval 或 S3 Glacier Deep Archive 存储类中归档的对象
-
通过归档访问层或深度归档访问层中的 S3 Intelligent-Tiering 存储类归档的对象
批量操作可以通过编程方式或在 Amazon S3 控制台上调用。对于输入,它需要一个包含要恢复的列表对象的.csv 清单文件。
您可以使用 Amazon S3 清单报告作为批量工作的输入。库存报告是针对存储桶配置的,可以限制为特定前缀下的对象。它是一种自动报告,每周或每天都以 CSV、ORC 或 Parquet 格式生成。
有关配置清单报告的更多信息,请参阅 Amazon S3 文档。有关使用 Boto3 创建 S3 批量操作作业的信息,请参阅 Boto3 文档