Automatización de EMR sin servidor con Amazon EventBridge - Amazon EMR

Automatización de EMR sin servidor con Amazon EventBridge

Puede utilizar Amazon EventBridge para automatizar sus Servicios de AWS y responder automáticamente a eventos del sistema, como problemas de disponibilidad de aplicaciones o cambios de recursos. EventBridge proporciona una secuencia de eventos de sistema casi en tiempo real que describen cambios en sus recursos de AWS. Puede crear reglas sencillas para indicar qué eventos le resultan de interés, así como qué acciones automatizadas se van a realizar cuando un evento cumple una de las reglas. Con EventBridge, puedes hacer lo siguiente automáticamente:

  • Invocar una función de AWS Lambda

  • Transmitir un evento a Amazon Kinesis Data Streams

  • Activar una máquina de estado de AWS Step Functions

  • Notificación sobre un tema de Amazon SNS o una cola de Amazon SQS

Por ejemplo, si utiliza EventBridge con EMR sin servidor, puede activar una función AWS Lambda cuando un trabajo de ETL se realice correctamente o notificar a un tema de Amazon SNS cuando un trabajo de ETL dé error.

EMR sin servidor emite cuatro tipos de eventos:

  • Eventos de cambio de estado de una aplicación: eventos que emiten cada cambio de estado de una aplicación. Para obtener más información acerca lo que indica la aplicación, consulte Estados de la aplicación.

  • Eventos de cambio de estado de ejecución de un trabajo: eventos que emiten todos los cambios de estado de una ejecución de trabajo. Para obtener más información sobre esto, consulte Estados de ejecuciones de trabajos.

  • Eventos de reintento de ejecución de trabajos: eventos que emiten cada reintento de ejecución de un trabajo desde Amazon EMR sin servidor, versión 7.1.0 y posteriores.

  • Eventos de actualización de uso de recursos de trabajo: eventos que emiten actualizaciones de uso de recursos para un trabajo que se ejecutan en intervalos cercanos a 30 minutos.

Ejemplos de eventos de EMR sin servidor EventBridge

Los eventos notificados por EMR sin servidor tienen un valor aws.emr-serverless asignado a la source, como en los ejemplos siguientes.

Evento de cambio de estado de la aplicación

El siguiente evento de ejemplo muestra una aplicación en el estado CREATING.

{
    "version": "0",
    "id": "9fd3cf79-1ff1-b633-4dd9-34508dc1e660",
    "detail-type": "EMR Serverless Application State Change",
    "source": "aws.emr-serverless",
    "account": "123456789012",
    "time": "2022-05-31T21:16:31Z",
    "region": "us-east-1",
    "resources": [],
    "detail": {
        "applicationId": "00f1cbsc6anuij25",
        "applicationName": "3965ad00-8fba-4932-a6c8-ded32786fd42",
        "arn": "arn:aws:emr-serverless:us-east-1:111122223333:/applications/00f1cbsc6anuij25",
        "releaseLabel": "emr-6.6.0",
        "state": "CREATING",
        "type": "HIVE",
        "createdAt": "2022-05-31T21:16:31.547953Z",
        "updatedAt": "2022-05-31T21:16:31.547970Z",
        "autoStopConfig": {
            "enabled": true,
            "idleTimeout": 15
        },
        "autoStartConfig": {
            "enabled": true
        }
    }
}

Evento de cambio de estado de ejecución de trabajo

El siguiente evento de ejemplo muestra una ejecución de trabajo que se mueve del estado SCHEDULED al estado RUNNING.

{
    "version": "0",
    "id": "00df3ec6-5da1-36e6-ab71-20f0de68f8a0",
    "detail-type": "EMR Serverless Job Run State Change",
    "source": "aws.emr-serverless",
    "account": "123456789012",
    "time": "2022-05-31T21:07:42Z",
    "region": "us-east-1",
    "resources": [],
    "detail": {
        "jobRunId": "00f1cbn5g4bb0c01",
        "applicationId": "00f1982r1uukb925",
        "arn": "arn:aws:emr-serverless:us-east-1:123456789012:/applications/00f1982r1uukb925/jobruns/00f1cbn5g4bb0c01",
        "releaseLabel": "emr-6.6.0",
        "state": "RUNNING",
        "previousState": "SCHEDULED",
        "createdBy": "arn:aws:sts::123456789012:assumed-role/TestRole-402dcef3ad14993c15d28263f64381e4cda34775/6622b6233b6d42f59c25dd2637346242",
        "updatedAt": "2022-05-31T21:07:42.299487Z",
        "createdAt": "2022-05-31T21:07:25.325900Z"
    }
}

Evento de reintento de ejecución de trabajo

A continuación, se muestra un ejemplo de un evento de reintento de ejecución de trabajo.

{
    "version": "0",
    "id": "00df3ec6-5da1-36e6-ab71-20f0de68f8a0",
    "detail-type": "EMR Serverless Job Run Retry",
    "source": "aws.emr-serverless",
    "account": "123456789012",
    "time": "2022-05-31T21:07:42Z",
    "region": "us-east-1",
    "resources": [],
    "detail": {
        "jobRunId": "00f1cbn5g4bb0c01",
        "applicationId": "00f1982r1uukb925",
        "arn": "arn:aws:emr-serverless:us-east-1:123456789012:/applications/00f1982r1uukb925/jobruns/00f1cbn5g4bb0c01",
        "releaseLabel": "emr-6.6.0",
        "createdBy": "arn:aws:sts::123456789012:assumed-role/TestRole-402dcef3ad14993c15d28263f64381e4cda34775/6622b6233b6d42f59c25dd2637346242",
        "updatedAt": "2022-05-31T21:07:42.299487Z",
        "createdAt": "2022-05-31T21:07:25.325900Z",
        //Attempt Details
        "previousAttempt": 1,
        "previousAttemptState": "FAILED",
        "previousAttemptCreatedAt": "2022-05-31T21:07:25.325900Z",
        "previousAttemptEndedAt": "2022-05-31T21:07:30.325900Z",
        "newAttempt": 2,
        "newAttemptCreatedAt": "2022-05-31T21:07:30.325900Z"
    }
}

Actualización sobre la utilización de los recursos del trabajo

El siguiente evento de ejemplo muestra la actualización final de utilización de recursos de un trabajo que pasó a un estado terminal después de ejecutarse.

{
    "version": "0",
    "id": "00df3ec6-5da1-36e6-ab71-20f0de68f8a0",
    "detail-type": "EMR Serverless Job Resource Utilization Update",
    "source": "aws.emr-serverless",
    "account": "123456789012",
    "time": "2022-05-31T21:07:42Z",
    "region": "us-east-1",
    "resources": [
        "arn:aws:emr-serverless:us-east-1:123456789012:/applications/00f1982r1uukb925/jobruns/00f1cbn5g4bb0c01"
    ],
    "detail": {
        "applicationId": "00f1982r1uukb925",
        "jobRunId": "00f1cbn5g4bb0c01",
        "attempt": 1,
        "mode": "BATCH",
        "createdAt": "2022-05-31T21:07:25.325900Z",
        "startedAt": "2022-05-31T21:07:26.123Z",
        "calculatedFrom": "2022-05-31T21:07:42.299487Z",
        "calculatedTo": "2022-05-31T21:07:30.325900Z",
        "resourceUtilizationFinal": true,
        "resourceUtilizationForInterval": {
            "vCPUHour": 0.023,
            "memoryGBHour": 0.114,
            "storageGBHour": 0.228
        },
        "billedResourceUtilizationForInterval": {
            "vCPUHour": 0.067,
            "memoryGBHour": 0.333,
            "storageGBHour": 0
        },
        "totalResourceUtilization": {
            "vCPUHour": 0.023,
            "memoryGBHour": 0.114,
            "storageGBHour": 0.228
        },
        "totalBilledResourceUtilization": {
            "vCPUHour": 0.067,
            "memoryGBHour": 0.333,
            "storageGBHour": 0
        }
    }
}

El campo startedAt solo estará presente en el caso de que el trabajo haya pasado a un estado de ejecución.