Apache Spark - Amazon Kinesis Data Streams

Apache Spark

O Apache Spark é um mecanismo de analytics unificado para processamento de dados em grande escala. Ele fornece APIs de alto nível em Java, Scala, Python e R, além de um mecanismo otimizado compatível com gráficos de execução geral. Você pode usar o Apache Spark para criar aplicações de processamento de fluxos que consumam os dados nos fluxos de dados do Kinesis.

Para consumir os fluxos de dados do Kinesis usando o Apache Spark Structured Streaming, use o conectordo Amazon Kinesis Data Streams. Esse conector suporta o consumo com a distribuição avançada, o que fornece à sua aplicação throughput de leitura dedicada de até 2 MB de dados por segundo por fragmento. Para ter mais informações, consulte Desenvolver consumidores personalizados com throughput dedicado (distribuição avançada).

Para o consumo de fluxos de dados do Kinesis usando o Spark Streaming, consulte Spark Streaming + integração com Kinesis.