AWS DataSync でのデータのアップロード - Amazon EMR

AWS DataSync でのデータのアップロード

AWS DataSync は、オンプレミスストレージと AWS ストレージサービス間、または AWS ストレージサービス間でのデータの移動プロセスを簡素化、自動化、および高速化するオンラインデータ転送サービスです。DataSync は、Hadoop Distributed File System (HDFS)、NAS ファイルサーバー、セルフマネージドオブジェクトストレージなど、さまざまなオンプレミスストレージシステムをサポートします。

クラスターにデータを入力する最も一般的な方法は、Simple Storage Service (Amazon S3) にデータをアップロードし、Amazon EMR の組み込み機能を使用してクラスターにデータをロードするというものです。

DataSync は、次のタスクの実行に役立ちます。

  • ビジネス継続性を実現するために、Hadoop クラスター上の HDFS を Simple Storage Service (Amazon S3) にレプリケートする

  • HDFS を Simple Storage Service (Amazon S3) にコピーして、データレイクに入力する

  • 分析と処理のために Hadoop クラスターの HDFS と Simple Storage Service (Amazon S3) の間でデータを転送する

S3 バケットにデータをアップロードするには、まずオンプレミスストレージと同じネットワークに 1 つ以上の DataSync エージェントをデプロイします。エージェントは、セルフマネージドの場所からデータを読み取ったり、そこにデータを書き込むために使用される仮想マシン (VM) です。次に、AWS アカウントおよび S3 バケットがある AWS リージョンでエージェントをアクティブ化します。

エージェントがアクティブ化されたら、オンプレミスストレージの送信元の場所、S3 バケットの送信先の場所、およびタスクを作成します。タスクは、2 つの場所 (送信元と送信先) からなる一式とタスクの動作を制御するために使用する一連のデフォルトオプションです。

最後に、DataSync タスクを実行して、送信元から送信先までデータを転送します。

詳細については、「AWS DataSync の開始方法」を参照してください。