Apache Spark - Amazon Kinesis Data Streams

Apache Spark

Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Proporciona API de alto nivel en Java, Scala, Python y R, y un motor optimizado que admite gráficos de ejecución general. Puede usar Apache Spark para crear aplicaciones de procesamiento de flujos que consuman los datos de sus flujos de datos de Kinesis.

Para consumir flujos de datos de Kinesis mediante Apache Spark Structured Streaming, utilice el conector Amazon Kinesis Data Streams. Este conector admite el consumo con la distribución ramificada mejorada, que proporciona a su aplicación un rendimiento de lectura dedicado de hasta 2 MB de datos por segundo por partición. Para más información, consulte Desarrollo y uso de consumidores personalizados con rendimiento dedicado (Distribución ramificada mejorada).

Para obtener más información sobre el consumo de Kinesis Data Streams mediante Spark Streaming, consulte Integración de Spark Streaming + Kinesis.