Configuración de un clúster de Amazon EMR para que continúe o finalice después de la ejecución de pasos - Amazon EMR

Configuración de un clúster de Amazon EMR para que continúe o finalice después de la ejecución de pasos

En este tema se explican las diferencias entre utilizar un clúster de ejecución prolongada y crear un clúster transitorio que se cierre después de ejecutar el último paso. También se explica cómo configurar la ejecución de pasos de un clúster.

Crear un clúster en ejecución prolongada

De forma predeterminada, los clústeres que se crean con la consola o AWS CLI son de ejecución prolongada. Los clústeres de ejecución prolongada siguen funcionando, aceptando trabajo y acumulando gastos hasta que tome medidas para cerrarlos.

Un clúster de ejecución prolongada es eficaz en las siguientes situaciones:

  • Cuando necesite consultar datos de forma interactiva o automática.

  • Cuando necesite interactuar con aplicaciones de macrodatos alojadas en el clúster de forma continua.

  • Cuando procesa periódicamente un conjunto de datos tan grande o con tanta frecuencia que resulta poco eficiente lanzar clústeres nuevos y cargar los datos cada vez.

También puede configurar la protección de terminación en un clúster de larga duración para evitar el cierre de las instancias de EC2 por accidente o error. Para obtener más información, consulte Uso de la protección de finalización para proteger sus clústeres de Amazon EMR de un cierre accidental.

nota

Amazon EMR habilita automáticamente la protección contra la terminación para todos los clústeres con varios nodos principales y anula cualquier configuración de ejecución de pasos que proporcione al crear el clúster. Puede deshabilitar la protección contra la terminación después de que se haya lanzado el clúster. Consulte Configuración de la protección de terminación para ejecutar clústeres. Para cerrar un clúster con varios nodos principales, primero debe modificar los atributos del clúster para deshabilitar la protección contra la terminación. Para obtener instrucciones, consulte Terminar un clúster de Amazon EMR con varios nodos principales.

Configuración de un clúster para que termine tras la ejecución de pasos

Al configurar la terminación tras la ejecución de pasos, el clúster se inicia, ejecuta las acciones de arranque y, a continuación, ejecuta los pasos que especifique. En cuanto se complete el último paso, Amazon EMR termina las instancias de Amazon EC2 del clúster. Los clústeres que lance con la API de Amazon EMR tienen habilitada la ejecución de pasos de forma predeterminada.

La terminación posterior a la ejecución de pasos es eficaz para los clústeres que realizan una tarea de procesamiento periódica, como un procesamiento de datos diario. La ejecución de pasos también lo ayuda a garantizar que solo se le facture el tiempo necesario para procesar sus datos. Para obtener más información acerca de los pasos, consulte Envío del trabajo a un clúster de Amazon EMR.

Console
Para activar la finalización tras la ejecución de pasos con la consola
  1. Inicie sesión en la Consola de administración de AWS y abra la consola de Amazon EMR en https://console.aws.amazon.com/emr.

  2. En EMR en EC2 situado en el panel de navegación izquierdo, elija Clústeres y, a continuación, elija Crear clúster.

  3. En Pasos, seleccione Agregar paso. En el cuadro de diálogo Agregar paso, introduzca los valores en los campos adecuados. Las opciones varían según el tipo de paso. Para agregar el paso y salir del cuadro de diálogo, elija Agregar paso.

  4. En Terminación del clúster, seleccione la casilla Terminar el clúster tras completar el último paso.

  5. Elija cualquier otra opción que se aplique a su clúster.

  6. Para lanzar el clúster, elija Crear clúster.

AWS CLI
Para activar la finalización tras la ejecución de pasos con la AWS CLI
  • Especifique el parámetro --auto-terminate cuando utilice el comando create-cluster para crear un clúster transitorio.

    El siguiente ejemplo muestra el uso del parámetro --auto-terminate. Puede escribir el comando siguiente y sustituir myKey por el nombre de su par de claves de EC2.

    nota

    Se incluyen caracteres de continuación de línea de Linux (\) para facilitar la lectura. Se pueden eliminar o utilizar en los comandos de Linux. En Windows, elimínelos o sustitúyalos por un signo de intercalación (^).

    aws emr create-cluster --name "Test cluster" --release-label emr-7.10.0 \ --applications Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey \ --steps Type=PIG,Name="Pig Program",ActionOnFailure=CONTINUE,\ Args=[-f,s3://amzn-s3-demo-bucket/scripts/pigscript.pig,-p,\ INPUT=s3://amzn-s3-demo-bucket/inputdata/,-p,OUTPUT=s3://amzn-s3-demo-bucket/outputdata/,\ $INPUT=s3://amzn-s3-demo-bucket/inputdata/,$OUTPUT=s3://amzn-s3-demo-bucket/outputdata/] --instance-type m5.xlarge --instance-count 3 --auto-terminate
API
Para desactivar la finalización tras la ejecución de pasos con la API de Amazon EMR en el lanzamiento del clúster
  1. Cuando utilice la acción RunJobFlow para crear un clúster, establezca la propiedad KeepJobFlowAliveWhenNoSteps en false.

  2. Para cambiar su configuración de finalización tras la ejecución de pasos con la API de Amazon EMR tras el lanzamiento del clúster:

    Utilice la acción SetKeepJobFlowAliveWhenNoSteps.