

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 将数据导入 Amazon EMR 的不同方法
<a name="emr-plan-get-data-in"></a>

Amazon EMR 提供了几种方法将数据导入到集群上。最常见的方法是将数据上载到 Amazon S3，然后使用 Amazon EMR 的内置功能将数据加载到集群上。您还可以使用 Hadoop 的 DistributedCache 功能将文件从分布式文件系统传输到本地文件系统。Amazon EMR（Hive 版本 0.7.1.1 及更高版本）提供的 Hive 实施包括一项功能，您可以使用此功能在 DynamoDB 和 Amazon EMR 集群之间导入和导出数据。如果有大量的本地数据要处理，您会发现 Direct Connect 服务非常有用。

**Topics**
+ [将数据上载到 Amazon S3](emr-plan-upload-s3.md)
+ [使用上传数据 AWS DataSync](emr-plan-upload-datasync.md)
+ [使用 Amazon EMR 分布式缓存导入文件](emr-plan-input-distributed-cache.md)
+ [使用 Amazon EMR 检测和处理压缩文件](HowtoProcessGzippedFiles.md)
+ [使用 Amazon EMR 将 DynamoDB 数据导入 Hive](emr-plan-input-dynamodb.md)
+ [通过 Amazon EM AWS Direct Connect R 连接数据](emr-plan-input-directconnect.md)
+ [使用 Amazon EMR 上传大量数据 AWS Snowball Edge](emr-plan-input-snowball.md)