Elija una región de AWS para su clúster de Amazon EMR - Amazon EMR

Elija una región de AWS para su clúster de Amazon EMR

Amazon Web Services se ejecuta en los servidores de los centros de datos de todo el mundo. Los centros de datos están organizados en regiones geográficas. Al lanzar un clúster de Amazon EMR, debe especificar una región. Puede elegir la región para reducir la latencia, minimizar los costos o satisfacer los requisitos reglamentarios. Para ver la lista de regiones y puntos de conexión que admite Amazon EMR, consulte Regiones y puntos de conexión en la Referencia general de Amazon Web Services.

Para obtener el máximo rendimiento, debe lanzar el clúster en la misma región donde se encuentren sus datos. Por ejemplo, si el bucket de Amazon S3 que almacena sus datos de entrada se encuentra en la región Oeste de EE. UU. (Oregón), debe lanzar el clúster en esa misma región para evitar las tarifas de transferencia de datos entre regiones. Si utiliza un bucket de Amazon S3 para recibir la salida del clúster, también debería crearlo en la región Oeste de EE. UU. (Oregón).

Si tiene previsto asociar un par de claves de Amazon EC2 con el clúster (necesarias para utilizar SSH para iniciar sesión en el nodo maestro), el par de claves debe crearse en la misma región que el clúster. Del mismo modo, los grupos de seguridad que crea Amazon EMR para administrar el clúster se crean en la misma región que este.

Si se ha registrado para obtener una Cuenta de AWS el 17 de mayo de 2017 o después de esa fecha, la región predeterminada para acceder a un recurso desde la Consola de administración de AWS es Este de EE. UU. (Ohio) (us-east-2); en el caso de las cuentas antiguas, la región predeterminada es Oeste de EE. UU. (Oregón) (us-west-2) o Este de EE. UU. (Norte de Virginia) (us-east-1). Para obtener más información, consulte Regiones y puntos de conexión.

Algunas características de AWS solo están disponibles en algunas regiones. Por ejemplo, las instancias de informática del clúster solo están disponibles en la región Este de EE. UU. (Norte de Virginia) y la región Asia-Pacífico (Sídney) admite solo Hadoop 1.0.3 y versiones posteriores. Cuando elija una región, compruebe que admite las características que desea utilizar.

Para obtener el máximo rendimiento, utilice la misma región para todos los recursos de AWS que se utilizarán con el clúster. La siguiente tabla asigna los nombres de región entre servicios. Para obtener una lista de las regiones de Amazon EMR, consulte Regiones de AWS y puntos de conexión en la Referencia general de Amazon Web Services.

Elegir una región mediante la consola

La región predeterminada aparece del lado izquierdo de la información de la cuenta en la barra de navegación. Para cambiar de región tanto en la consola nueva como en la antigua, seleccione el menú desplegable Región y seleccione una nueva opción.

Especificación de una región con AWS CLI

Para especificar una región predeterminada en la AWS CLI, utilice el comando aws configure o la variable de entorno AWS_DEFAULT_REGION. Para más información, consulte Configuración de la región de AWS en la Guía del usuario de AWS Command Line Interface.

Elegir una región mediante un SDK o la API

Para elegir una región con un SDK, configure su aplicación para que utilice el punto de conexión de esa región. Si está creando una aplicación cliente mediante un SDK de AWS, puede cambiar el punto de conexión del cliente llamando setEndpoint, tal y como se muestra en el ejemplo siguiente:

client.setEndpoint("elasticmapreduce.us-west-2.amazonaws.com");

Después de que la aplicación haya especificado una región definiendo el punto de conexión, puede configurar la zona de disponibilidad de las instancias de EC2 de su clúster. Las zonas de disponibilidad son regiones geográficas diferentes que se han diseñado para estar aisladas de errores que se produzcan en otras zonas de disponibilidad y que proporcionan conectividad de red de baja latencia a otras zonas de disponibilidad de la misma región. Una región consta de una o varias zonas de disponibilidad. Para optimizar el rendimiento y reducir la latencia, todos los recursos deben estar situados en la misma zona de disponibilidad que el clúster que los utiliza.