本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
EMRFS S3-optimized 提交者和分段上传
要使用 EMRFS S3-optimized 提交器,您必须为 Amazon EMR 启用分段上传。默认启用分段上传。需要时,您可以重新启用它。有关更多信息,请参阅《Amazon EMR 管理指南》中的为 Amazon S3 配置分段上传。
EMRFS S3-optimized 提交者使用分段上传的类似事务的特性来确保任务尝试写入的文件仅在任务提交后出现在作业的输出位置。通过以这种方式使用分段上传,提交者比默认 FileOutputCommitter 算法版本 2 提高了任务提交性能。使用 EMRFS S3-optimized 提交器时,需要考虑与传统分段上传行为的一些关键区别:
-
无论文件大小如何,分段上传都会执行。这不同于 EMRFS 的默认行为,其中
fs.s3n.multipart.uploads.split.size属性在触发分段上传时,控制文件大小。 -
在任务提交或中止之前,分段上传在较长时间内都保持在未完成状态。这不同于 EMRFS 的默认行为,其中分段上传在任务完成写入给定文件时完成。
由于这些区别,如果 Spark Executor JVM 在任务正在运行或将数据写入到 Amazon S3 时发生崩溃或被终止,未完成的分段上传更可能被留下来。因此,在使用 EMRFS S3-optimized 提交器时,请务必遵循管理失败的分段上传的最佳实践。有关更多信息,请参阅《Amazon EMR 管理指南》中使用 Amazon S3 存储桶的最佳实践。