开篇介绍
上周末参加了一次永洪科技在中关村 3W 咖啡举行的一次线下沙龙活动 - 关于它们的产品大数据敏捷 BI 工具的介绍。由此活动,我想到了三个话题 - 3W 互联网的圈子,永洪科技的大数据敏捷 BI 工具,微软 BI 工具的路应该如何去走。
3W 互联网的圈子
其实之前在中关村工作过很长的一段时间,每天吃饭的点基本上就包括中关村那一块,平时每天都从那个基督教堂门前走过来走过去。但是感觉在中关村那里白混了一年,因为从来没有注意到那里其实有一个人气很旺的 IT 互联网人的圈子 - 3W 咖啡屋。
不过话说回来,我也觉得自己不是一个互联网圈子中的人,我只能算上一个时不时刷下微信圈关注下公众号的互联网的外围 IT 男青年。互联网,移动互联,这些个名字听上去对我来说太高大上了。虽然离我生活很近,但是花钱和我相比太远了,滴滴打车,饿了么,这哪一个不是花钱我们用? 其实反过来想一想,其实就是他们在花钱用我们。每一笔交易就是从对方花钱开始,你被用了作为结束,这个场景貌似在哪里见过,好熟悉。
作为互联网外围 IT 男青年,连北京地铁涨个价都要发给微信吐个槽不同。互联网人不缺钱,A 轮,B 轮,C 轮 烧钱,动辄千万美金的,钱烧起来就不是钱,就是一堆数字了。有钱就是任性,有钱的感觉,真好!
从我们口袋拿了钱,还得感谢你们帮我们开启了一段新的旅程!
调侃结束,言归正传!因为这次参加永洪科技的线下活动的原因,绕了好几圈才找到了这个在远处看上去毫不起眼的 3W 咖啡屋。
其实这个咖啡屋非常有特色,一楼是咖啡厅,书架,笔记本,再把 IT 行业的各种巨头照一挂,瞬间觉得 IT 圈其实也可以那么有情调。说的俗一点,从心里的角度上理解就是一个平时背个电脑包坐个地铁被吐槽的 IT 男:那个一看就是搞 IT 的,黑眼圈,白头发,胡子拉碴背个电脑不像话。同样的一副模样进了圈内估计就可能是另外一个样子:那个一看就是大牛,黑眼圈,白头发,胡子拉碴背个电脑帅到渣。圈子不一样,认知就不一样,很多在圈外找不到的成就感,被认知感只有在圈内懂的人中找回,也只有圈内的人才能懂得这成就的不易与价值。
IT 人有 IT 人自己的情怀,IT 人也有 IT 人貌似呆纯背后的眼光毒辣之处,因为目的就只有一个 - 想尽办法用你!用完你你还得替他说好,接着介绍更多的人被用! 3W 咖啡屋就是这么一个互联网人扎堆在一起,互相学习,交流经验,或者密谋着如何勾搭在一起研究更好的用好你的这么一个 IT 风情之地。
二楼是各种会议场所,据说按会议场地的大小一下午的收费大概是上千块钱不等。可以用来开展各种不同的沙龙活动,线下会议等等。感觉周末也人也是随时破门而入,到各个不同的会场去找找自己感兴趣的主题去听,如果找不到就继续回到一楼看看书,上上网,当然被催着点东西吃喝也是 3W 咖啡屋的一部分内容。
关于 3W 本身就是一个在互联网中的被人称作为咸鱼翻身的屌丝变高富帅的励志小青年,关于对它的成长,发展模式可以自行搜索了解,这里从网上摘一部分看看:
" 3W咖啡子公司拉勾网8月20日宣布获启明创投领投、贝塔斯曼亚洲投资基金跟投的2500万美元B轮投资,资金已全部到账。今年4月1日,拉勾网宣布获贝塔斯曼投资资金投资的500万美金A轮投资。即便今年下半年资本很热,只要是稍微靠谱的项目都能获得大额的投资,但拉勾网此轮融资的完成,估值已达到1.5亿美元。当年濒临倒闭的3W咖啡和创始人团队凭此彻底咸鱼翻身。”
" 3W有100多个股东,(i黑马注:3W咖啡馆被誉为具有中国特色的众筹创业模式案例之一),刚开始都想得很好,可以让大家都来这谈事。但大家第一次来是凑热闹,第二次来图新鲜……但最终生意都归生意。"
" 我们原来有误区,认为互联网的人很高大上,好像我们掌握了一种更先进的生产力,你觉得你很容易自上而下,就像什么《三体》里的降维攻击一样,我多牛X,传统咖啡店多苦,我做一个咖啡店还不小case?你真去做的时候,发现每个生意有每个生意的门道。"
其实,互联网就在身边,谁,又能没有一点自己的互联网梦想?
永洪科技的大数据敏捷 BI 工具
作为一个普通的微软 BI 开发,除了平时需要关注微软 BI 工具和解决方案之外,时不时还需要了解一下不同的 BI 工具。在各种不同的大数据时代,移动互联网时代,被弄得不收藏点大数据,移动互联,老罗情怀等各种小抄就显得出门在外与人忽悠就容易老气,落后,不专业一样。
但毕竟要洗去铅华回归本质,真正关注点手头上应该关注的东西才是王道。
在此之前,对永洪科技实际上不太了解,有印象的还是去年 2013年的时候由天善智能团队在 YY 上组织了一次关于永洪科技大数据技术的讲座。由于我本身不是做大数据的,所以里面很多的专业的知识听不太懂,比如永洪大数据框架设计,大数据的实现原理等等这些对我来说很有难度。
很幸运的是这次碰到了永洪科技的 CEO 何春涛先生,以及永洪科技的产品经理,市场经理等团队。
关于这次永洪大数据敏捷 BI 工具的介绍,我想在这里大概的还原一下我所理解的这个大数据 BI 解决方案。用他们产品经理举得一个例子我觉得很适合作为永洪科技大数据敏捷 BI 的开场白:90天细节数据约50亿条数据导入到 Yonghong DM,直接定制 Dashboard 分析。
以下是我边看他们的产品演示边整理的小笔记:
- 传统数据分析做法 - 建模,汇总数据,业务查看分析结果。数据相对静态,维度和度量公式需要预先设定好。
- 存在的问题就是分析需求变更,业务人员不能直接调整报表,周期长,响应速度比较久。
- 敏捷 BI:针对海量数据的计算能力不足,通过建模提前汇总,计算。
- 敏捷商业智能可以实现轻量建模:N个视图,快速发布。而传统的 BI 都是重量建模:统一视图,每次修改会引起比较大的结构变化,维护成本很高。
- 海量数据的分析成本- 只需传统大数据,BI 的 1/4 的成本,几天到几周,只需原 1/4 的上线周期。
- 基于细节数据的轻量建模,用新技术实现高性能的计算,点击计算让用户随心所欲。
- 有数据呈现,也有数据交互,线下挖掘,TB-PB 级的数据秒级响应。
- 非IT部分的同时直接在分析平台上做出来,Self BI, 业务用户有灵感就可以去尝试,去验证。
- 分析报告需求需要数据层的改动,需要IT部门去修改数据层和业务层。传统BI 需要一个月两个月去梳理模型,设计M额他 DWD DWA 做 ETL Cube,敏捷 BI 这些都不需要。
- 无需事先建模,可在分析过程中灵活调整分析维度和报表展现,可以在一天只能做好,细节数据,轻量建模。
从我的角度出发,永洪的敏捷 BI 至少可以帮助我解决这么几个问题:
TB-PB 级的数据秒级响应能力
数据量的问题,TB-PB 级的数据秒级响应能力由于没有实际的测试数据量,我不能确定是否真的可以做到,但是就示例当中的五千万级测试数据,我觉得从现场表现来看还是完全可以 Hold 住的。当然,具体后面如何去实现的细节,大数据的处理过程我还是没有过于去问。因为对我们来说,更多的时候是围绕着客户来选择适当的解决方案,如何实现不重要,但能不能实现非常重要。这个过程是在报表中不断的点击,钻取与用户的交互情况下发生的,我们就不说五千万级的秒级响应,可能几百万级的秒级交互响应传统的 BI 可能就很难做到。
WEB 平台的数据交互
工具与平台的问题,这还是一个 WEB 界面的操作,线上制作线上发布,这个绝对是一个非常大的优点。
无固定的数据模型,任何字段即维度 Drag and Drop and Done
维度和事实自动划分,任何字段可以作为维度搭配浏览数据。即看数据的角度不是类似于传统 BI 需要建模,建立层次结构那样,而是任意组合,无须预先设计。这一点对于 Business User 来说是最重要的,原因就在于传统的 BI 的流程当中如果需要在报表中改变维度通常都可能涉及到数据仓库级别的维度的改动。但是在敏捷 BI 中,这点修改是非常容易实现的,对于一个无须太多 IT 经验的用户来说,他们自己就可以解决这类问题。并且,所有的图形控件浏览和切换数据查看的方式都是非常容易操作的,Drag and Drop and Done !
灵活的集成不同的数据源
基于已有的数据附加新的数据源的问题也解决的很好。通常碰到的情况就是,我们出的数据分析的报表,用户拿到之后需要临时通过一个 Excel 表的数据做一个筛选。这个 Excel 表的数据原本是在数据仓库中不存在的,要是专门给这个 Excel 数据做一个 ETL 导入然后弄一张表,觉得总有一点那么不太标准化,并且还是属于用一次可能下次就不用了的。遇到这种情况,如何是好? 在敏捷 BI 中这个问题可以很好的解决,可以在分析数据的过程中直接附加一个新的数据源,做一些关联就可以集成进来了。不需要的时候,很容易的修改一下数据源关联就可以去掉。
这个工具可能也存在以下这些限制:
- 我个人感觉永洪的在沙龙中演示的这套敏捷 BI 产品,更多的是偏向于解决基于大数据分析的一款前端报表展现工具。数据量足够大也可以支持,大数据的支持力度是没有问题的。前端展现,数据分析,各种图表,秒级交互响应对于一般的数据分析人员,报表展现是足够了的。所以这套产品的定位的关键字应该是:TB-PB 级大数据量,数据分析,报表工具。但对于数据挖掘的实现可能在这套工具中还没有看到,不知道在永洪的其它解决方案和工具中是否存在。
- ETL 的支持力度可能还不够强,或者说对于所分析的数据在数据的干净程度上是需要预先处理的,我觉得这也是大部分前端展现工具都存在的一个问题,或者说它们产品本身的定位就是面向大数据,面向前端展现的,所以这一点也其实很正常。
可变通的解决方案
那么我个人觉得比较合理的一种解决方案还是由 ETL (微软 SSIS,Informatica,Kettle)等 ETL 工具完成了基本的数据清洗之后即可交由永洪敏捷 BI 来完成数据展现和分析的效果,不需要特别定制的数据仓库模型,因为它是通过轻量级的视图进行关联在一起的,并且自动划分维度和事实。这样对于用户来说,有什么样的想法就直接可以使用敏捷 BI 工具来验证,不需要提交给 IT 部门,自己动手就可以分析数据。
永洪科技的敏捷 BI 工具的同类型产品:QlikView, QlikSense, Tableau,很多特点都非常类似:秒级交互,丰富的数据源支持,多图样,快速部署与快速实施周期。当然 QlikView 是由自己的一套完整的 ETL 实现的,不过需要写很多的 Script 脚本且语法与我们传统 Script 有些不同,需要花费一定的精力来学习。前端时间正好帮助 QlikView 开发的同事写了一个 C# 程序嵌入 QlikView 解决了它自身的的一个 Encoding 的 Bug 问题,领略了一下 QlikView 独特的语法魅力,非常有意思。
对于永洪敏捷 BI 的这套工具的理解可能也存在片面之处,烦请专业人员指出。
心痛的微软 BI 前端
越来越多的数据分析前端工具在最近几年不断推出,无论是国外的 QlikView, QlikSense, Tableau,还是国内的永洪科技,Smartbi 等等,说明都很看重基于大数据量的数据分析与展现这一块的市场。并且在不同的版本的迅速迭代上逐步的完善了已有功能,并推出新的功能,新的系列。就如同 QlikTech 在 2014年8月前后推出的 QlikSense 一样,产品的更迭,定位变化的非常快。反观微软 BI 在前端展现上的表现在最近很多年在市场上几乎没有太大的进展,一般人觉得这个不应该,但是事实上就是如此。
(2014年 BI 市场 Leaders,微软整体其实表现非常不错,Tableau 和 Qlik 都是前端报表数据分析工具)
首先微软BI 是一套完整的企业级 BI 应用框架,不仅具备 ETL 的实现(SSIS - SQL Server Integration Services),也基本分析服务,多维数据分析的实现(SSAS - SQL Server Analysis Service),也具备前端报表展现(SSRS - SQL Server Reporting Service)。除此之外,还有基于 Office Excel 的 PowerPivot Drag and Drop 自助分析产品,在 Office 2013 系列中还有像 PowerView 这种在前端部分展现效果上可以与 QlikView, QlikSense, Tableau 进行 PK 的工具。不所谓不强大,整个体系全面且互相衔接,兼容性,平台性都非常的统一。一套产品即可完成一个完整的 BI 解决方案,应该来说这种表现在所有 BI 解决方案提供商中绝对是顶尖的。
但是为什么又感觉到乏力呢? ETL 这部分的实现是没有任何问题的,可以应用于绝大部分 BI 解决方案中,对于 SSAS 也可以暂时不提,主要要说的是 SSRS Reporting 的表现。
作为微软 BI 解决方案三大模块之一的(SSIS, SSRS, SSAS)的 SSRS 自 SQL Server 2005 版本开始,到 2008 版本可以说是一个里程碑,在功能上有很大的改变和提升。但是从 SQL Server 2008 R2 开始到 2012, 到现在的 2014 可以说基本上没有任何变化。单一的控件,繁杂的配置属性,让默认的页面看起来非常难看。这种报表开发不仅仅要求对业务,数据的把握很全部,而且需要报表开发花大量的时间解决页面布局,属性技巧,颜色搭配等效果,而不是专注于业务本身,数据本身。如果能够让报表开发从报表设计中剥离出来,专注于提供更好的数据展现,数据质量,这将会极大的提升工作效率。
并且,特别是 SSRS 工作的方式,从数据源取数据,到创建临时报表,到交付给 IIS 最后在浏览器中渲染并呈现。每一次点击页面有交互的效果就是这么一个过程,除非利用缓存。也就是说每一次交互都需要重复的不断的检索数据,在大数据量的查询前提下,很显然很难满足这种灵活交互和快速响应的要求。
但并不是微软没有做,微软把这部分做在了 Office 中,就此出现了 PowerPivot 和基于 PowerPivot 的很强大的 PowerView。Self-BI 的概念就是微软在这套产品中提出的一个亮点,希望借助于 Office Excel Self-BI 的特点实现对企业用户 BI 市场上的占领。PowerPivot,PowerView 强大不强大,也很强大,的确可以实现 Self-BI 的效果。但是有一点,如果需要将这些内容部署并通过 WEB 方式共享和访问的时候就需要搭配 SharePoint 产品的。当然这中做法没有错,QlikView, QlikSense, Tableau 也是这么干的,它们也有自己的 Server 和 Publisher,但是对比起来它们的 Self-BI 无论是从客户端还是到服务器端整个搭配起来的功能和效果无疑要远远强于 SharePoint + Office Excel,既然这样有为什么要选择 SharePoint + Office Excel 模式呢? 既然能脱离这种捆绑销售,那么自然就会有更多的选择。
所以从 2008年到现在的 2014年,微软 BI 在前端工具的发展很明显的是偏向了 SharePoint + Office Excel 模式,而在 SSRS 部分没有丝毫的提升,如同鸡肋一般。但是至少从我现在的圈子里的朋友中,只有少数的选择 Office Excel + SharePoint 模式,更多的选择越来越变得抛弃 Office Excel 而选择了其它的第三方报表工具,比如 Cognos,QlikView,QlikSense 等等。
当然并不会出现这种 Self-BI 会完全代替 SSRS 的情况,SSRS 适用于面向主题的静态的数据呈现,比如这种企业级的定制化的报表。像 Office Excel ,QlikView, Tableau, 永洪科技的敏捷 BI 它们更多的用语业务人员自身的数据分析,部门级的个人级的数据分析与呈现,且主题和内容不固定。
作为一个微软 BI 开发,当然还是希望微软 BI 能够发展的更好,微软也是时候看看身边的这些大数据,数据分析,报表呈现的各种产品了。如果失掉前端产品的市场份额,一旦 ETL 部分被其它更轻量更灵活的 ETL 工具所代替,那么微软 BI 的整个解决方案和框架将会被其它解决方案所代替。
就如同现在的数据分析工具,是完全可以不依赖于数据仓库,不需要 CUBE 只需要一个大平面表就可以完成数据分析和展现,交互的过程的。数据仓库解决的是什么问题,面向过去的历史增量数据的统一的收集,具体固定的分析事实的维度。现在很多工具完全可以解决增量加载的历史数据问题,也不需要构建标准的维度就可以完成数据分析的过程。CUBE 用来做什么,大数据量的预先聚合计算问题,空间换时间。但是现在这种大数据量的聚合计算的效率在很多前端报表工具上已经得到了很好的解决,大数据量并发访问都也已经不是问题。如果这么想下去,拿掉 SSAS, 拿掉 数据仓库,拿掉 SSRS 微软 BI 还剩下什么能够在 BI 市场上与各豪强抗衡? 我相信这个问题不仅仅是微软遇到的问题,也可能是其它很多 BI 解决方案提供商会遇到的问题。
我为什么要关注这个问题,关注微软BI,因为目前我是吃这碗饭的。在不饿肚子还能养家糊口的前提下还是能抗上几年,相信微软能够在未来的 BI 产品中完成升级,改造,多多尊重一下用户体验和开发体验,多多吸收一些成功的产品的经验。手机巨人 NOKIA 不也能轰然倒下吗? 微软 BI 为什么就一定能保证不被打败? 学习如逆水行舟,不进则退,产品不也是如此吗?