使用 AMS SSP 在您的 AMS 账户中配置亚马逊 EMR - AMS 高级用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 AMS SSP 在您的 AMS 账户中配置亚马逊 EMR

使用 AMS 自助服务配置 (SSP) 模式,直接在您的 AMS 托管账户中访问 Amazon EMR 功能。亚马逊 EMR 是业界领先的云大数据平台,用于使用 Apache Spark、Apache Hive、Apache Flink、Apache Flink、Apache Hudi 和 P HBase resto 等开源工具处理大量数据。借助 Amazon EMR,您可以以不到传统本地解决方案一半的成本运行 PB 级分析,速度比标准 Apache Spark 快 3 倍以上。对于短期运行的作业,您可以启动和关闭集群,并为使用的实例按秒付费。对于长时间运行的工作负载,您可以创建高度可用的集群,这些集群可以自动扩展以满足需求。

您可以在 AMS 多账户着陆区账户或单账户着陆区账户中创建一个或多个 Amazon EMR 集群实例,以支持临时和永久性 Amazon EMR 集群。您也可以启用 Kerberos 身份验证以启用对本地 Active Directory 域中的用户进行身份验证。

您可以在 Amazon EMR 集群中利用多个数据存储来支持特定于用例的 Hadoop 工具和库。可以使用 OnDemand 或竞价型实例创建 Amazon EMR 集群,并配置自动扩展以管理容量并降低成本。

可以将集群日志文件存档到 Amazon S3 存储桶中以进行日志记录和调试。您还可以访问托管在 Amazon EMR 集群中的网页界面,以支持 hadoop 管理要求或为客户提供笔记本体验。

要了解更多信息,请参阅 Amazon EMR

AWS Managed Services 常见问题解答中的亚马逊 EMR

问:如何通过我的 AMS 账户申请访问亚马逊 EMR?

通过提交管理 | AWS 服务 | 自配置服务 | 添加(需要审核)(ct-3qe6io8t6jtny) 更改类型来申请访问权限。此 RFC 为您的账户配置以下 IAM 角色:

  • customer_emr_cluster_instance_profile

  • customer_emr_cluster_autoscaling_role

  • customer_emr_console_role

  • customer_emr_cluster_service_role

在您的账户中进行配置后,您必须在联合解决方案中加载 customer_emr_console_role。

问:在我的 AMS 账户中使用 Amazon EMR 有哪些限制?

通过 AWS 控制台在 EC2 集群上创建 Amazon EMR 时,我们建议您使用 “创建集群-高级” 选项。必须通过添加带有密钥 “for-use-with-amazon-emr-managed-policies” 且值为 “tru e” 的标签来创建 Amazon EMR 集群。在 “安全” 选项中选择以下配置:

  • 为您的集群选择自定义角色:

    • EMR 角色:customer_emr_cluster_service_role

    • EC2 实例配置文件:customer_emr_cluster_instance_profile

    • Auto Scaling 角色:customer_emr_cluster_autoscaling_role

  • EC2 安全组:

    • Master: ams-emr-master-security-group

    • 核心和任务: ams-emr-worker-security-group

    • 服务访问权限: ams-emr-serviceaccess-security-group

问:在我的 AMS 账户中使用 Amazon EMR 的先决条件或依赖条件是什么?

AMS 为 Amazon EMR 主节点、工作节点和服务节点创建默认安全组。

要用于 Amazon EMR 集群的启动模板和安全组必须具有标签密钥 “for-use-with-amazon-”,值为 “true emr-managed-policies

默认的 Amazon EMR 集群实例配置文件允许访问名称包含 “emr” 的 s3 存储桶和 dynamodb 表等资源。您可以申请其他 IAM 政策,以使用任何其他资源与 Amazon EMR 配合使用。以下资源 ARN 可以使用 customer_emr_cluster_instance_profile 用于亚马逊 EMR 任务:

  • arn: aws: dynamodb: *: *: table/*emr*

  • arn: aws: kinesis: *: *: stream/*emr*

  • arn: aws: sns: *: *: *emr*arn: aws: sqs: *: *: *emr*

  • arn: aws: sqs: *: *: *emr*

  • arn: aws: sqs: *: *: AWS--* ElasticMapReduce

  • arn: aws: sdb: *: *: domain: *emr*

  • arn: aws: s3::: *emr*

如果 Amazon EMR 集群需要 kerberos 身份验证:

  • 提供用于每个 kerberized Amazon EMR 集群的领域名称和本地 Active Directory IP 地址。

  • 基础架构要求:

    多账户登录区 (MALZ):提交 RFC 以在现有应用程序账户中创建新的托管应用程序账户或新 VPC。

    单账户着陆区 (SALZ):提交 RFC 以在您的 VPC 中创建新的子网。

  • 在预置的 Active Directory 上为集群的领域配置传入信任。

  • 提交 RFC 以在托管 AD 中为该领域配置 DNS 区域。

  • 领域配置:

    MALZ:提交管理 | 其他 | 其他 | 更新 (ct-0xdawir96cy7k) RFC 以更新 VPC DHCP 选项设置为使用域名后缀的领域名称。

    SALZ:提交管理 | 其他 | 其他 | 更新 (ct-0xdawir96cy7k) RFC 以生成新的亚马逊 EMR AMI,使用特定领域作为域名后缀。

要部署 Amazon EMR studio,该角色customer_emr_cluster_service_role必须具备亚马逊简单存储服务存储段的先决条件。要创建存储桶,请使用自动化 CTct-1a68ck03fn98r(部署 | 高级堆栈组件 | S3 存储 | 创建)。当您使用此自动 CT 为 Amazon EMR 创建 Amazon S3 存储桶时,存储桶名称必须以前缀开头。customer-emr-*而且,您必须在与 Amazon EMR AWS 集群相同的区域中创建存储桶。