流式处理挑战
与传统数据分析技术相比,在实时数据到达时对其进行处理,您做出决策的速度会快得多。但是,构建和运行自己的自定义流式数据管道很复杂且占用大量资源:
-
您必须构建这样一个系统,它能够经济高效地收集、准备和传输来自数千个数据源的数据。
您需要微调存储和计算资源,以便高效地对数据进行批处理和传输,从而实现高吞吐量和低延迟。
-
您必须部署和管理服务器机群才能扩展系统,以便能够处理将涌向它的不同速度的数据。
版本升级是一个复杂且成本高昂的过程。构建此平台后,您必须监控系统,并从任何服务器或网络故障中恢复(通过从流中的适当点赶上数据处理来实现),而不创建重复的数据。您还需要专门的基础设施管理团队。所有这些都需要花费宝贵的时间和金钱,最终,大多数公司根本无法实现这一目标,而是必须适应现状,利用已存在数小时或数天之久的信息来运营其业务。