翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon EMR クラスターのハードウェアの選択
Sayde Aguilar、Amiin Samatar、Diego Valencia、Amazon Web Services (AWS)
2023 年 8 月 (ドキュメント履歴)
Amazon EMR はビッグデータ処理用のツールです。オープンソースソフトウェア、特に Apache Spark や Apache Hudi などの Apache ツールを使用します。さらに、低コストのpay-as-you-goモデルを設定して使用するためのオプションがいくつか用意されています。
このガイドでは、その伸縮性に基づいて Amazon EMR クラスターを設計する方法を説明し、ハードウェアを選択する際に従うべきベストプラクティスを示します。
概要
Amazon EMR は、大量のデータを処理するためのフレームワークである Apache Hadoop MapReduce を使用して構築されています。Hadoop MapReduce は、並列ロジックを使用して分散クラスター内のデータを同時に処理します。つまり、すべてのプロセスに独自のプロセッサがあります。Amazon EMR は、Amazon Elastic Compute Cloud (Amazon EC2) 上に構造化された仮想サーバーの Hadoop クラスターを使用します。つまり、すべての並列プロセスは、Amazon Web Services () で実行されているスタンドアロンコンピュータで行われますAWS。
Hadoop クラスターは、並列環境または分散環境を使用して大量の非構造化データを処理するために使用する特定のタイプの計算クラスターです。Hadoop クラスターの主な特徴は、スケーラビリティが高く、データ処理を高速化するように設定できることです。スケーラビリティを実現するには、ノードを追加または削除してスループットを増減します。Hadoop クラスターでは、各データがクラスターノード間でコピーされるため、ノードに障害が発生した場合に失われるデータはほぼゼロになります。
Amazon EMR では、伸縮性とは動的サイズ変更機能を指します。クラスターを自動的にスケーリングし、必要な変更を加えることができます。初期ハードウェア設計に依存する必要はありません。
このガイドでは、その伸縮性に基づいて Amazon EMR クラスターを設計する方法を説明し、ハードウェアを選択する際に従うべきベストプラクティスを示します。