選擇 Amazon EMR 叢集的硬體 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

選擇 Amazon EMR 叢集的硬體

Sayde Aguilar、Amiin Samatar 和 Diego Valencia,Amazon Web Services (AWS)

2023 年 8 月 (文件歷史記錄)

Amazon EMR 是一種用於大數據處理的工具。它使用開放原始碼軟體,特別是 Apache Spark 和 Apache Hudi 等 Apache 工具。此外,它提供數種選項來設定和使用低成本、pay-as-you-go的模型。

本指南說明如何根據該彈性設計 Amazon EMR 叢集,並提供選擇硬體時應遵循的最佳實務。

概觀

Amazon EMR 是使用 Apache Hadoop MapReduce 建置而成,Apache Hadoop MapReduce 是一種用於處理大量資料的架構。Hadoop MapReduce 會使用平行邏輯同時處理分散式叢集中的資料,這表示每個程序都有自己的處理器。Amazon EMR 使用在 Amazon Elastic Compute Cloud (Amazon EC2) 上結構化的虛擬伺服器的 Hadoop 叢集。這表示所有平行程序都是在 Amazon Web Services () 上執行的獨立電腦上進行AWS。

Hadoop 叢集是一種特定的運算叢集類型,用於使用平行或分散式環境處理大量非結構化資料。Hadoop 叢集的主要特性是具有高度可擴展性,並可設定為加速資料處理。透過新增或移除節點來增加或減少輸送量,達到可擴展性。在 Hadoop 叢集上,叢集節點之間會複製每個資料片段,因此如果節點失敗,幾乎不會遺失任何資料。

在 Amazon EMR 上,彈性是指動態調整大小功能。您可以自動擴展叢集,並進行任何您需要的變更。您不需要依賴您的初始硬體設計。

本指南說明如何根據該彈性設計 Amazon EMR 叢集,並提供選擇硬體時應遵循的最佳實務。