本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 AMS SSP 在您的 AMS 帳戶中佈建 Amazon EMR
使用 AMS 自助式佈建 (SSP) 模式直接存取 AMS 受管帳戶中的 Amazon EMR 功能。Amazon EMR 是領先業界的雲端大數據平台,可使用 Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi 和 Presto 等開放原始碼工具來處理大量資料。使用 Amazon EMR,您可以執行 PB 級分析,成本不到傳統內部部署解決方案的一半,比標準 Apache Spark 快 3 倍以上。對於短期執行的任務,您可以向上和向下旋轉叢集,並為使用的執行個體每秒付費。對於長時間執行的工作負載,您可以建立高度可用的叢集,以自動擴展以滿足需求。
您可以在 AMS 多帳戶登陸區域或單一帳戶登陸區域帳戶中建立一或多個 Amazon EMR 叢集執行個體,以支援暫時性和持久性 Amazon EMR 叢集。您也可以啟用 Kerberos 身分驗證,以啟用來自內部部署 Active Directory 網域的身分驗證使用者。
您可以使用 Amazon EMR 叢集利用多個資料存放區,以支援使用案例特定的 Hadoop 工具和程式庫。您可以使用 OnDemand 或 Spot 執行個體建立 Amazon EMR 叢集,並設定自動擴展以管理容量並降低成本。
叢集日誌檔案可以封存到 Amazon S3 儲存貯體以進行記錄和偵錯。您也可以存取 Amazon EMR 叢集中託管的 Web 介面,以支援雜湊管理要求或為客戶記錄書籍體驗。
若要進一步了解,請參閱 Amazon EMR
AWS Managed Services 常見問答集中的 Amazon EMR
問:如何請求存取 AMS 帳戶中的 Amazon EMR?
透過提交管理 | AWS 服務 | 自助佈建服務 | 新增 (需要檢閱) (ct-3qe6io8t6jtny) 變更類型來請求存取權。此 RFC 會將下列 IAM 角色佈建至您的帳戶:
customer_emr_cluster_instance_profilecustomer_emr_cluster_autoscaling_rolecustomer_emr_console_rolecustomer_emr_cluster_service_role
在帳戶中佈建後,您必須在聯合解決方案中加入 customer_emr_console_role。
問:在我的 AMS 帳戶中使用 Amazon EMR 有哪些限制?
從 AWS 主控台在 EC2 叢集上建立 Amazon EMR 時,我們建議您使用建立叢集 – 進階選項。Amazon EMR 叢集必須透過新增索引鍵為「for-use-with-amazon-emr-managed-policies」且值為「true」的標籤來建立。在安全選項中選取下列組態:
選取叢集的自訂角色:
EMR 角色:Customer_emr_cluster_service_role
EC2 執行個體設定檔:Customer_emr_cluster_instance_profile
Auto Scaling 角色:Customer_emr_cluster_autoscaling_role
EC2 安全群組:
主要 :ams-emr-master-security-group
核心與任務:ams-emr-worker-security-group
服務存取:ams-emr-serviceaccess-security-group
問:在我的 AMS 帳戶中使用 Amazon EMR 的先決條件或相依性是什麼?
AMS 會為 Amazon EMR 主節點、工作者節點和服務節點建立預設安全群組。
要與 Amazon EMR 叢集搭配使用的啟動範本和安全群組必須具有值為 "true" 的標籤索引鍵 "for-use-with-amazon-emr-managed-policies"。
預設 Amazon EMR 叢集執行個體描述檔可讓您存取 資源,例如 s3 儲存貯體和 dynamodb 資料表,其名稱包含 "emr"。您可以請求其他 IAM 政策,以使用與 Amazon EMR 搭配使用的任何其他資源。下列資源 ARN 可與使用 customer_emr_cluster_instance_profile 的 Amazon EMR 任務搭配使用:
arn:aws:dynamodb:*:*:table/*emr*
arn:aws:kinesis:*:*:stream/*emr*
arn:aws:sns:*:*:*emr*arn:aws:sqs:*:*:*emr*
arn:aws:sqs:*:*:*emr*
arn:aws:sqs:*:*:AWS-ElasticMapReduce-*
arn:aws:sdb:*:*:domain:*emr*
arn:aws:s3::*emr*
如果 Amazon EMR 叢集需要 kerberos 身分驗證:
提供要用於每個角化 Amazon EMR 叢集的領域名稱和內部部署 Active Directory IP 地址。
基礎設施需求:
多帳戶登陸區域 (MALZ):提交 RFC 以在現有應用程式帳戶中建立新的受管應用程式帳戶或新的 VPC。
單一帳戶登陸區域 (SALZ):提交 RFC 以在 VPC 中建立新的子網路。
在內部部署 Active Directory 上設定叢集領域傳入的信任。
在 Managed AD 中提交 RFC 來設定領域 DNS 區域。
領域組態:
MALZ:提交管理 | 其他 | 其他 | 更新 (ct-0xdawir96cy7k) RFC 以更新 VPC DHCP 選項集,以使用網域名稱尾碼的領域名稱。
SALZ:提交管理 | 其他 | 其他 | 更新 (ct-0xdawir96cy7k) RFC,以產生新的 Amazon EMR AMI,以使用網域名稱尾碼的特定領域。
若要部署 Amazon EMR Studio,角色customer_emr_cluster_service_role具有 Amazon Simple Storage Service 儲存貯體的先決條件。若要建立儲存貯體,請使用自動化 CT ct-1a68ck03fn98r(部署 | 進階堆疊元件 | S3 儲存 | 建立)。當您使用此自動化 CT 為 Amazon EMR 建立 Amazon S3 儲存貯體時,儲存貯體名稱必須以字首 開頭customer-emr-*。此外,您必須在與 Amazon EMR 叢集相同的 AWS 區域中建立儲存貯體。