如何对大数据量的数据实时抓取

0
业务系统中有一个数量级是亿的table,做一次性的初始抓取还可以。主要是每天都要跟踪数据的变化,又不想对业务系统做CDC或者触发器之类,怕影响性能,不知道大家有什么好的办法呢?
已邀请:
0

Bob - 同程旅游大数据+BI 架构师 2015-10-20 回答

面对这种大数据量的情况下,可在程序端进行拦截:
1.程序将数据入库后,顺便查询出此行数据,并异步抛到消息队列中
2.编写程序消费来自队列中的数据,并重新入库到仓库中
 
数据量太大,不建议直接从db读取,而是想办法让交易前置,并建设分布式消息队列。利用队列的性能来缓冲。
我们目前构建了分布式的kafka集群和storm集群来处理前端的实时消息。
1

BAO胖子 - 15年BI经验,涉足电力,快消品,医药,信息服务等行业的BI老兵。 2015-10-11 回答

CDC不会很影响性能,广告说大约是5%。触发器就不要想了,实时没有太好的办法,还有就是如果业务系统有灾备系统,是不是能从那里面抓数据。
0

seng - 从事BI、大数据、数据分析工作 2015-10-12 回答

触发器做时间戳还可以,其他的操作就不用考虑了。

要回复问题请先登录注册