View a markdown version of this page

使用 EMRFS 提交器 S3-optimized - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 EMRFS 提交器 S3-optimized

EMRFS S3-optimized 提交器是一种替代OutputCommitter实现,它针对在使用 EMRFS 时将文件写入 Amazon S3 进行了优化。EMRFS S3-optimized 提交者通过避免在任务和任务提交阶段在 Amazon S3 中执行列出和重命名操作来提高应用程序性能。提交程序适用于 Amazon EMR 发行版 5.19.0 及更高版本,在 Amazon EMR 5.20.0 及更高版本中将默认启用。提交者用于使用 Spark DataFrames、或数据集的 Spark 作业。从 Amazon EMR 6.4.0 开始,此提交程序可用于所有常见格式,包括 parquet、ORC 和基于文本的格式(包括 CSV 和 JSON)。对于 Amazon EMR 6.4.0 之前的发行版,仅支持 Parquet 格式。在某些情况下,不使用提交程序。有关更多信息,请参阅 EMRFS 提交者的 S3-optimized 要求