实际上我最近也有些迷茫, 主要还是在技术层面上,我做BIDW这行时间也不短了,传统的BIDW的工具现在还是那么些,10多年前的技术还是这些.
关系数据库最好用的还是Oracle,
ETL工具还是Informatica,
前端倒有些变化,最近说的比较多的是敏捷BI,我主要还在用OBIEE,感觉却别最大还是可视化的差距,易上手\开发快\这些特性原来的BI工具也有,只是不是宣传重点而已.
Hadoop出现的时候还是让人眼前大亮,多好的技术阿,又不要钱又能处理大量数据,
确实Hadoop及之后的Spark确实解决了大数据的计算问题,不过正常的运营数据也没这么大,是否可以使用不用这么复杂的技术?
而且即时的olap分析还是没能很好解决,Kylin还是回到预汇总那条路上了.
吐槽下我对当前的Spark/Hadoop的基本计算功能的不满,olap做不了 ^-^
但对其上的应用生态圈确实很感兴趣, Stream和Machine learning的相关技术都很有用.
先不讨论这些, 先描述一下我对
数据工具的要求:
- 能够支持一般企业的数据,即<100亿
- 硬件便宜,最好能够单pc server支持;
- 软件能否免费而且部署方便
- 能够基本兼容原来的ETL方法SQL那一套方法
- 能够很好的支持即时查询
- 预汇总(如果需要)的ETL时间可控,而且支持实时的数据处理
实际上核心的要求就2个:
- 关系数据库 -- open source而且提供高性能查询
- 实时的流处理 --解决跑批的瓶颈
可能的选择:
查询数据目前也就一个选择Postgre和之上的一些并行数据库,
流处理Kafka或者我前几天一直看的pipelinedb.
所以我构想,简单的方案就使用Postgre+pipelinedb搭建数据库和流处理构建整个分析系统的基础.
这也是我年后会先关注的内容.
年前就这样了, 明天开始休息了,看看书.
祝大家新春快乐!