

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon EMR 叢集需求
<a name="emr-studio-cluster-requirements"></a>

**在 Amazon EC2 上執行的 Amazon EMR 叢集**

您為 EMR Studio Workspace 建立的 Amazon EC2 上執行的所有 Amazon EMR 叢集必須符合下列要求。使用 EMR Studio 介面建立的叢集會自動滿足這些要求。
+ 叢集必須使用 Amazon EMR 版本 5.32.0 (Amazon EMR 5.x 系列) 或 6.2.0 (Amazon EMR 6.x 系列) 或更高版本。您可以使用 Amazon EMR 主控台 AWS Command Line Interface或 SDK 建立叢集，然後將其連接至 EMR Studio 工作區。Studio 使用者也可以在 Amazon EMR Workspace 中建立或運作時佈建和附接叢集。如需詳細資訊，請參閱[將運算附接至 EMR Studio 工作區](emr-studio-create-use-clusters.md)。
+ 叢集必須位於 Amazon Virtual Private Cloud 中。不支援 EC2-Classic 平台。
+ 叢集必須安裝 Spark、Livy 以及 Jupyter Enterprise Gateway。如果打算將叢集用於 SQL Explorer，應安裝 Presto 和 Spark。
+ 若要使用 SQL Explorer，叢集必須使用 Amazon EMR 5.34.0 版或更高版本或者 6.4.0 版或更高版本，並已安裝 Presto。如果您想要將 AWS Glue Data Catalog 指定為 Presto 的 Hive 中繼存放區，您必須在叢集上進行設定。如需詳細資訊，請參閱[搭配使用 Presto 與 AWS Glue Data Catalog](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-presto-glue.html)。
+ 叢集必須位於具有網路位址轉譯 (NAT) 的私有子網路中，才能搭配 EMR Studio 使用公開託管的 Git 儲存庫。

當您使用 EMR Studio 時，建議您使用下列叢集組態。
+ 將 Spark 工作階段的部署模式設定為叢集模式。叢集模式會將應用程式主程序置於核心節點上，而不是叢集的主節點上。這樣做可以減輕主節點的潛在記憶體壓力。如需詳細資訊，請參閱 Apache Spark 文件中的[叢集模式概觀](https://spark.apache.org/docs/latest/cluster-overview.html)。
+ 將 Livy 逾時從預設值一小時變更為六小時，如下列範例組態所示。

  ```
  {
      "classification":"livy-conf",
          "Properties":{
              "livy.server.session.timeout":"6h",
              "livy.spark.deploy-mode":"cluster"
          }
  }
  ```
+ 建立最多具有 30 個執行個體的不同執行個體機群，並在 Spot 執行個體叢集中選取多個執行個體類型。例如，您可以針對 Spark 工作負載指定下列記憶體優化執行個體類型：r5.2x、r5.4x、r5.8x、r5.12x、r5.16x、r4.2x、r4.4x、r4.8x、r4.12 等。如需詳細資訊，請參閱[為您的 Amazon EMR 叢集規劃和設定執行個體機群](emr-instance-fleet.md)。
+ 使用 Spot 執行個體的容量優化配置策略，協助 Amazon EMR 根據 Amazon EC2 的即時容量洞察進行有效的執行個體選擇。如需詳細資訊，請參閱[執行個體機群的配置策略](emr-instance-fleet.md#emr-instance-fleet-allocation-strategy)。
+ 在叢集上啟用受管擴展。將最大核心節點參數設定為您計劃使用的最小持續容量，並在 Spot 執行個體上執行的多樣化任務機群上設定擴展以節省成本。如需詳細資訊，請參閱[在 Amazon EMR 中使用受管擴展功能](emr-managed-scaling.md)。

我們還敦促您保持啟用「Amazon EMR 封鎖公開存取」，並將傳入 SSH 流量限制為受信任的來源。叢集的傳入存取可讓使用者在叢集上執行筆記本。如需詳細資訊，請參閱[使用 Amazon EMR 封鎖公開存取](emr-block-public-access.md)及[使用 Amazon EMR 叢集的安全群組控制網路流量](emr-security-groups.md)。

**Amazon EMR on EKS 叢集**

除了在 Amazon EC2 上執行的 EMR 叢集之外，您還可以使用 AWS CLI，針對 EMR Studio 來設定和管理 Amazon EMR on EKS 叢集。使用下列準則設定 Amazon EMR on EKS 叢集：
+ 針對 Amazon EMR on EKS 叢集建立受管 HTTPS 端點。使用者將工作區附接至受管端點。您用來註冊虛擬叢集的 Amazon Elastic Kubernetes Service (EKS) 叢集必須擁有私有子網路才能支援受管端點。
+ 如果您想要使用公開託管的 Git 儲存庫，則請使用具有至少一個私有子網路和網路位址轉譯 (NAT) 的 Amazon EKS 叢集。
+ 避免使用 [Amazon EKS 優化的 ARM Amazon Linux AMI](https://docs.aws.amazon.com/eks/latest/userguide/eks-optimized-ami.html#arm-ami)，Amazon EMR on EKS 受管端點不支援。
+ 避免 AWS Fargate僅使用不支援的 Amazon EKS 叢集。