如何对大数据量的数据实时抓取
0
业务系统中有一个数量级是亿的table,做一次性的初始抓取还可以。主要是每天都要跟踪数据的变化,又不想对业务系统做CDC或者触发器之类,怕影响性能,不知道大家有什么好的办法呢?
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
3 个回复
Bob - 同程旅游大数据+BI 架构师 2015-10-20 回答
赞同来自:
1.程序将数据入库后,顺便查询出此行数据,并异步抛到消息队列中
2.编写程序消费来自队列中的数据,并重新入库到仓库中
数据量太大,不建议直接从db读取,而是想办法让交易前置,并建设分布式消息队列。利用队列的性能来缓冲。
我们目前构建了分布式的kafka集群和storm集群来处理前端的实时消息。
BAO胖子 - 15年BI经验,涉足电力,快消品,医药,信息服务等行业的BI老兵。 2015-10-11 回答
赞同来自: ZanarKand
seng - 从事BI、大数据、数据分析工作 2015-10-12 回答
赞同来自: