Kafka Confluent Platform-Kafka的完整流处理解决方案

浏览: 4021

前几天都在测试PipelineDB的内容,看到可以PipelineDB把Kafka当做流的来源,就像测试一下。

发现手上的版本还是0.8.2.2,就下了一个新版本0.10.1, 同时看了一下文档,发现Kafka核心的周边多了好多东西。

最主要的就是kafka-connect和kafka-stream,把实时ETL和流计算都完成了,对我这等不会编程的人可是重大利好。

Kafka周边就都集成在Confluent Platform下了:


官方的文档见: http://docs.confluent.io

起步的同学可以直接拿来用的官方示例

知乎上也有个介绍kafka-connect( https://zhuanlan.zhihu.com/p/21262642)还有视频链接额,也很好。


以下就借用官方的几张图介绍一下能做什么,

kafka-connect的功能示意图:从MySQL读取数据落到hadoop里面,原来很多功能需要flume中转,现在都不要了^-^


具体的 支持的接口列表https://www.confluent.io/product/connectors/  


kafka-stream有2个重要特性,支持窗口功能和基于记录的流处理(不是micro-batch messages)

那一张图示意一下流程,注意可以基于行的lookup而且支持基于窗口的Aggregate:


PS:

今天把《量子物理史话——上帝掷骰子吗?》看了一大半了,前半部的故事说得不错,粒子论和波动论的螺旋式上升、迭代式发展,最后变成了波粒二象性,和谐统一了^-^。后半部看了些,已经觉得有点脑洞大开了,偏哲学了。

不过从粒子论和波动论的相互竞争我想到了BI\DI和大数据的关系,作为传统的BI人虽然也在不停学习Hadoop相关内容,但是我始终有个疑问,流的处理、或者不是很大量的数据处理,我需要这么重量级工具吗?有没有更好的免费的应用方案? 使用起来有没有更好的工具?

从Kafka和Pipelinedb我觉得差不多有了,可以构成基本的应用架构了(当然稳定性还要再看)。 最近我在这方面会多看一些。

推荐 1
本文由 seng 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

6 个评论

把股市的专业名词都用上了,“重大利好”;赞一个!
呵呵, 不炒股的^-^
只是觉得 这些工具是传统的延续,比较适合我这种从传统BI过来的人吧。
鸡年大吉!小黄鸡蹦蹦蹦!!!!!
鸡年大吉!
今天估计大家都在路上了, 我就继续水着了^-^
我有个疑问,一个规模很大的连锁零售公司要进行实时小票流水数据展示,这个情景是不是典型的流处理情景,目前最适用的方案是不是Kafka?
seng

seng 回复 wffger

这种场景我理解,Kafka主要做缓冲, 还是需要流处理的,
Spark Stream和pipilinedb都可以啊

要回复文章请先登录注册