

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 選擇正確的儲存體
<a name="storage"></a>

設定叢集的[執行個體類型和容量](capacity.md)。核心和任務節點需要處理和運算能力，但只有核心節點會存放資料。為您的核心節點選取最具成本效益的儲存類型。

使用 Amazon EMR 處理大量資料時，您有幾個選項可從 Amazon S3 移動資料。最佳選項取決於您的工作負載。以下各節提供一些關鍵點，供您在決定哪種儲存類型是適合您的選擇時考慮。

## Hadoop 分散式檔案系統
<a name="hdfs"></a>

Hadoop 分散式檔案系統 (HDFS) 是 Hadoop 的分散式、可擴展和可攜式檔案系統。HDFS 的優勢在於能夠感知管理叢集的 Hadoop 叢集節點與管理個別步驟的 Hadoop 叢集節點之間的資料。

## 何時在 Amazon EMR 中使用 HDFS
<a name="hdfs-in-emr"></a>

當您在相同的資料集或磁碟 I/O 密集型工作負載上進行疊代讀取時，您可以使用 HDFS 快取中繼結果，並使用 做為處理資料的熱儲存。HDFS 是暫時性的，這表示會在執行個體終止時回收。

### EMR 檔案系統
<a name="emrfs"></a>

EMR 檔案系統 (EMRFS) 是 HDFS 的實作，Amazon EMR 叢集通常用於直接從 Amazon EMR 讀取和寫入一般檔案至 Amazon S3。

您可以在每次執行中讀取資料集一次時使用 EMRFS。EMRFS 會將儲存與運算分離，因此您不需要特別佈建核心節點來存放資料，也不需要支付 HDFS 中的資料複寫費用。這會導致成本降低，並提供多個叢集的資料可用性。您也可以在關閉叢集後保留資料。