关于open source的BIDW相关工具的思考

浏览: 2061

实际上我最近也有些迷茫, 主要还是在技术层面上,我做BIDW这行时间也不短了,传统的BIDW的工具现在还是那么些,10多年前的技术还是这些.

关系数据库最好用的还是Oracle,

ETL工具还是Informatica,

前端倒有些变化,最近说的比较多的是敏捷BI,我主要还在用OBIEE,感觉却别最大还是可视化的差距,易上手\开发快\这些特性原来的BI工具也有,只是不是宣传重点而已.

Hadoop出现的时候还是让人眼前大亮,多好的技术阿,又不要钱又能处理大量数据,

确实Hadoop及之后的Spark确实解决了大数据的计算问题,不过正常的运营数据也没这么大,是否可以使用不用这么复杂的技术?

而且即时的olap分析还是没能很好解决,Kylin还是回到预汇总那条路上了.

吐槽下我对当前的Spark/Hadoop的基本计算功能的不满,olap做不了 ^-^

但对其上的应用生态圈确实很感兴趣, Stream和Machine learning的相关技术都很有用.


先不讨论这些, 先描述一下我对

数据工具的要求:

  1. 能够支持一般企业的数据,即<100亿
  2. 硬件便宜,最好能够单pc server支持;
  3. 软件能否免费而且部署方便
  4. 能够基本兼容原来的ETL方法SQL那一套方法
  5. 能够很好的支持即时查询
  6. 预汇总(如果需要)的ETL时间可控,而且支持实时的数据处理

实际上核心的要求就2个:

  1. 关系数据库 -- open source而且提供高性能查询
  2. 实时的流处理 --解决跑批的瓶颈

可能的选择:

查询数据目前也就一个选择Postgre和之上的一些并行数据库,

流处理Kafka或者我前几天一直看的pipelinedb.

所以我构想,简单的方案就使用Postgre+pipelinedb搭建数据库和流处理构建整个分析系统的基础.

这也是我年后会先关注的内容.


年前就这样了, 明天开始休息了,看看书.

祝大家新春快乐!

推荐 4
本文由 seng 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

seng总,新年快乐,这么晚还在写博客,辛苦。
新年快乐

要回复文章请先登录注册