Amazon EMR にデータを取得するさまざまな方法
Amazon EMR では、複数の方法でデータをクラスターに配置することができます。最も一般的な方法は、Simple Storage Service (Amazon S3) にデータをアップロードし、Amazon EMR の組み込み機能を使用してクラスターにデータをロードするというものです。また、Hadoop の DistributedCache 機能を使用して、分散ファイルシステムからローカルファイルシステムにファイルを転送することもできます。Amazon EMR によって提供される Hive (Hive バージョン 0.7.1.1 以降) の実装には、DynamoDB と Amazon EMR クラスターの間でデータのインポートおよびエクスポートを行う場合に使用できる機能が含まれています。処理する社内データが大量にある場合、Direct Connect サービスが役に立つ場合があります。