Utilice AMS SSP para aprovisionar Amazon EMR en su cuenta de AMS - Guía de usuario avanzada de AMS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Utilice AMS SSP para aprovisionar Amazon EMR en su cuenta de AMS

Utilice el modo de aprovisionamiento de autoservicio (SSP) de AMS para acceder a las capacidades de Amazon EMR directamente en su cuenta gestionada por AMS. Amazon EMR es la plataforma de macrodatos en la nube líder del sector para procesar grandes cantidades de datos mediante herramientas de código abierto como Apache Spark, Apache Hive, Apache, Apache Flink HBase, Apache Hudi y Presto. Con Amazon EMR, puede ejecutar análisis a escala de petabytes a menos de la mitad del costo de las soluciones locales tradicionales y más de 3 veces más rápido que el Apache Spark estándar. En el caso de los trabajos de corta duración, puede activar y desactivar los clústeres y pagar por segundo por las instancias utilizadas. Para cargas de trabajo de larga duración, puede crear clústeres de alta disponibilidad que se escalen automáticamente para satisfacer la demanda.

Puede crear una o más instancias de los clústeres de Amazon EMR en las cuentas de zona de aterrizaje multicuenta o de zona de aterrizaje de una sola cuenta de AMS para admitir clústeres de Amazon EMR tanto transitorios como persistentes. También puede habilitar la autenticación Kerberos para autenticar a los usuarios desde un dominio de Active Directory local.

Puede aprovechar varios almacenes de datos con los clústeres de Amazon EMR para admitir bibliotecas y herramientas de Hadoop para casos de uso específicos. Los clústeres de Amazon EMR se pueden crear mediante instancias puntuales OnDemand o bien configurar el escalado automático para gestionar la capacidad y reducir el coste.

Los archivos de registro del clúster se pueden archivar en un bucket de Amazon S3 para registrarlos y depurarlos. También puede acceder a las interfaces web alojadas en el clúster de Amazon EMR para cumplir con los requisitos de administración de Hadoop o las experiencias de cuaderno para los clientes.

Para obtener más información, consulte Amazon EMR.

Preguntas frecuentes sobre Amazon EMR en AWS Managed Services

P: ¿Cómo solicito acceso a Amazon EMR en mi cuenta de AMS?

Solicite el acceso enviando un formulario de administración | AWS servicio | Servicio autoaprovisionado | Añada (es necesario revisar) (ct-3qe6io8t6jtny) el tipo de cambio. Este RFC proporciona las siguientes funciones de IAM a su cuenta:

  • customer_emr_cluster_instance_profile

  • customer_emr_cluster_autoscaling_role

  • customer_emr_console_role

  • customer_emr_cluster_service_role

Una vez aprovisionado en su cuenta, debe incorporar el customer_emr_console_role a su solución de federación.

P: ¿Cuáles son las restricciones para usar Amazon EMR en mi cuenta de AMS?

Al crear Amazon EMR en un EC2 clúster desde la consola de AWS, le recomendamos que utilice la opción Create Cluster — Advanced. Los clústeres de Amazon EMR se deben crear añadiendo la etiqueta con la clave "for-use-with-amazon-emr-managed-policies" con el valor «true». Seleccione las siguientes configuraciones en las opciones de seguridad:

  • Seleccione funciones personalizadas para su clúster:

    • Función de EMR: customer_emr_cluster_service_role

    • EC2 Perfil de instancia: customer_emr_cluster_instance_profile

    • Función de Auto Scaling: customer_emr_cluster_autoscaling_role

  • EC2 Grupos de seguridad:

    • Maestro: ams-emr-master-security -group

    • Núcleo y tarea: ams-emr-worker-security -grupo

    • Acceso al servicio: -group ams-emr-serviceaccess-security

P: ¿Cuáles son los requisitos previos o las dependencias para utilizar Amazon EMR en mi cuenta de AMS?

AMS crea grupos de seguridad predeterminados para los nodos maestro, de trabajo y de servicios de Amazon EMR.

Las plantillas de lanzamiento y los grupos de seguridad que se van a utilizar con los clústeres de Amazon EMR deben tener la clave de etiqueta "for-use-with-amazon-emr-managed-policies" con el valor «true».

El perfil de instancia de clúster de Amazon EMR predeterminado permite el acceso a los recursos, como los buckets s3 y las tablas de dynamodb, cuyos nombres contienen «emr». Puede solicitar políticas de IAM adicionales para utilizar cualquier recurso adicional que se utilice con Amazon EMR. Los siguientes ARN de recursos se pueden utilizar con los trabajos de Amazon EMR que utilizan customer_emr_cluster_instance_profile:

  • arn:aws:dynamodb: *:*:table/*emr*

  • arn:aws:kinesis: *:*:stream/*emr*

  • arn:aws:sns: *:*: *emr*arn:aws:sqs: *:*: *emr*

  • arn:aws:sqs: *:*: *emr*

  • arn:aws:sqs: *:*:AWS- -* ElasticMapReduce

  • arn:aws:sdb: *:*:dominio: *emr*

  • arn:aws:s3: ::*emr*

Si se requiere la autenticación kerberos para el clúster de Amazon EMR:

  • Proporcione el nombre de dominio que se utilizará para cada clúster de Amazon EMR kerberizado y las direcciones IP de Active Directory locales.

  • Requisitos de infraestructura:

    Zona de destino multicuenta (MALZ): envíe una RFC para crear una nueva cuenta de aplicación gestionada o una nueva VPC en una cuenta de aplicación existente.

    Zona de aterrizaje de cuenta única (SALZ): envíe una RFC para crear una nueva subred en su VPC.

  • Configure la confianza entrante para el dominio del clúster en el Active Directory local.

  • Envíe una RFC para configurar las zonas DNS del dominio en el AD administrado.

  • Configuración del dominio:

    MALZ: Envíe un RFC de administración | Otros | Otros | Actualice (ct-0xdawir96cy7k) para actualizar el conjunto de opciones de DHCP de la VPC para utilizar el nombre de dominio como sufijo del nombre de dominio.

    SALZ: Envíe un RFC de administración | Otros | Otros | Actualice (ct-0xdawir96cy7k) para generar una nueva AMI de Amazon EMR que utilice el dominio específico para el sufijo del nombre de dominio.

Para implementar Amazon EMR studio, el rol customer_emr_cluster_service_role requiere un depósito de Amazon Simple Storage Service como requisito previo. Para crear el depósito, utilice el CT automatizado ct-1a68ck03fn98r (Implementación | Componentes de pila avanzados | Almacenamiento S3 | Creación). Cuando utilice este CT automatizado para crear un bucket de Amazon S3 para Amazon EMR, el nombre del bucket debe empezar por el prefijo. customer-emr-* Además, debe crear el bucket en la misma AWS región que el clúster de Amazon EMR.