Apache Spark - Amazon Kinesis Data Streams

Apache Spark

Apache Spark は、大規模データ処理のための統合分析エンジンです。Java、Scala、Python、および R の高レベルな API と、汎用実行グラフをサポートする最適化されたエンジンを提供します。Apache Spark を使用して、Kinesis データストリーム内のデータを消費するストリーム処理アプリケーションを構築できます。

Apache Spark 構造化ストリーミングを使用して Kinesis データストリームを使用するには、Amazon Kinesis Data Streams コネクタを使用します。このコネクタは、拡張ファンアウトによる消費をサポートします。これにより、アプリケーションはシャードあたり 1 秒あたり最大 2 MB のデータの専用読み取りスループットが得られます。詳しくは、「スループット専有 (拡張ファンアウト) カスタムコンシューマーの開発」を参照してください。

Spark Streaming を使用した Kinesis データストリームを消費するには、「Spark Streaming + Kinesis Integration」を参照してください。