Procesamiento de un archivo CSV de Amazon S3 mediante un mapa distribuido - AWS Step Functions

Procesamiento de un archivo CSV de Amazon S3 mediante un mapa distribuido

En este proyecto de muestra se ilustra cómo se puede utilizar el estado Distributed Map para iterar más de 10 000 filas de un archivo CSV que se genera mediante una función de Lambda. El archivo CSV contiene información de envío de los pedidos de los clientes y se almacena en un bucket de Amazon S3. Distributed Map itera sobre un lote de 10 filas en el archivo CSV para el análisis de los datos.

Distributed Map contiene una función de Lambda para detectar cualquier pedido retrasado. Distributed Map también contiene un Inline Map para procesar los pedidos retrasados en un lote y devolver estos pedidos retrasados en una matriz. Para cada pedido retrasado, Inline Map envía un mensaje a una cola de Amazon SQS. Por último, este proyecto de muestra almacena los resultados de Map Run en otro bucket de Amazon S3 de su Cuenta de AWS.

Con Distributed Map, puede ejecutar hasta 10 000 ejecuciones paralelas de flujos de trabajo secundarios a la vez. En este proyecto de muestra, la simultaneidad máxima de Distributed Map se establece en 1000, lo que la limita a 1000 ejecuciones paralelas de flujos de trabajo secundarios.

Este proyecto de muestra crea la máquina de estado, los recursos de AWS de apoyo, y configura los permisos de IAM relacionados. Explore este proyecto de muestra para aprender acerca del uso de Distributed Map para orquestar cargas de trabajo paralelas a gran escala o úselo como punto de partida para sus propios proyectos.

Paso 1: Crear la máquina de estado

  1. Abra la consola de Step Functions y seleccione Crear máquina de estado.

  2. Seleccione Crear a partir de una plantilla y busque la plantilla de inicio relacionada. Elija Siguiente para continuar.

  3. Elija cómo usar la plantilla:

    1. Realizar una demostración: crea una máquina de estado de solo lectura. Tras la revisión, puede crear el flujo de trabajo y todos los recursos relacionados.

    2. Crear a partir de ella: proporciona una definición de flujo de trabajo editable que puede revisar, personalizar e implementar con sus propios recursos. (Los recursos relacionados, como las funciones o las colas, no se crearán automáticamente).

  4. Elija Utilizar plantilla para continuar con la selección.

    nota

    Se aplican cargos estándar por los servicios implementados en su cuenta.

Paso 2: ejecución de la máquina de estado de demostración

Si elige la opción Ejecutar una demostración, todos los recursos relacionados se implementarán y estarán listos para ejecutarse. Si eligió la opción Crear a partir de ella, es posible que necesite establecer valores de marcador de posición y crear recursos adicionales antes de poder ejecutar su flujo de trabajo personalizado.

  1. Elija Implementar y ejecutar.

  2. Espera a que se implemente la pila de CloudFormation. Este proceso puede tardar hasta 10 minutos en completarse.

  3. Cuando aparezca la opción Iniciar ejecución, revise la entrada y elija Iniciar ejecución.

¡Enhorabuena!

Ahora debería tener una demostración en funcionamiento de su máquina de estado. Puede elegir estados en la vista gráfica para revisar la entrada, la salida, las variables, la definición y los eventos.