专访永洪科技CEO:畅谈商业智能搬运大数据背后之谜

浏览: 2618
想象一下,今天中国互联网每60秒可以发生哪些事情?60秒内,百度搜索达到450万次,微博发送80万条,淘宝发生8000笔交易,QQ空间照片上传15万张,数据就像滚雪球一样,越滚越大,不管你是不是喜欢,整个庞大的数据生态圈就这么悄悄的席卷而来了。根据IDC提供的研究报告,2020年预计全球新建和复制的信息量已超40ZB,是2012年的10倍,而中国数据量将超8ZB,比2012年增长22倍,快速膨胀的数据量促进了商业智能市场的发展。

比尔盖茨曾经说过:“如何搜集、管理和利用信息将决定您的胜负。”商业智能正式在这种需求下诞生的,那么究竟什么是商业智能呢?它与我们的生活是否息息相关呢?从小型的超市系统,到银行、航空、水利、电力、铁路运输等大型系统,商业智能的应用无处不在。商业智能技术早已不再是大企业的专利,其应用领域已经拓展至中小规模的企业,而在这新一轮的变革中,永洪在商业智能领域扎根三年了。对你而言,商业智能是近在咫尺,还是远在天边呢?本期名人堂皮皮邀请到了搬运大数据的亨利,永洪科技CEO 何春涛坐镇,大数据时代下,商业智能应用暗藏哪些玄机?

皮皮(Q1):何总,您好!很高兴有机会采访到您,我了解到您曾经在商业智能领域的跨国企业里担当研发副总裁,而2013年是您人生中的一个转折点,在这一年里,您选择了创业,能不能分享下您当时创办永洪科技的初衷?

何春涛(A1):创业之前的2012年,国内BI市场份额大致是这样的:Cognos 24%、BO 24%、BIEE 16%,如果再算上MSTR、Microsoft等等,可以说被国际厂商长期垄断,而国际市场更不可能有本土厂商的立足之地。作为BI行业的研发人员,这样的局面看上去让人心痛。自己年纪也不小,考虑了一段时间,就决定出来折腾一把,希望能改变一下格局。
艾瑞咨询是我们持续合作的大客户之一,为我们Pre-A轮融资提供了坚强的后盾。后来,我们又同美国经纬连续做了数千万的A轮和A+轮融资。到今年年初,我们基本确定B轮融资,目前正在操作过程中。创业的路很难,好在认可永洪的客户越来越多,有一帮优秀的战友始终在一起努力,还有一些投资界不错的朋友对我们的给力支持。

皮皮(Q2):谈到大数据,除了来自数据库、结构化文件、消息队列和应用系统产生的结构化数据外,还有社交媒体、用户点击评论等产生的非结构化数据,当然还包括电信行业比如呼叫记录、摄像头、ATM机等传感器产生的数据,而商业智能平台是如何做到读懂各种类型的数据源的?

何春涛(A2):商业智能平台,几乎都是通用软件。也就是说,可以在各个行业各种场景中使用。针对您说的这个问题,一般用两种办法来解决:如果一个数据源遵循开放标准,例如ODBC、JDBC,我们可以通过开放标准接入;如果它不遵循开放标准,在软件的数据建模层我们有自己的标准,一般通过提供适配器将这些非结构化数据接入。事实上,很多不遵循开放标准的大数据,一般也有成熟的Open API,比如微信公众号的企业数据。通过Open API,我们可以连接社交、电商、搜索等领域的大数据,将数据以结构化或者非结构化形式进行存储,再进行交互式分析和深度分析。

皮皮(Q3):如果把企业经营和管理的数据比喻成“矿石”,那么商业智能的作用就是将这些“矿石”转化成“精矿”。商业智能到底给我们的生活带来了哪些便利呢?能不能结合一些实际的案例,和我们分享下商业智能采矿的处理过程。

何春涛(A3):永洪科技有一句口号:大数据小数据,一天实现可视化分析。事实上,这是数据分析行业的主流发展趋势:将数据做轻度清洗,再进行轻度建模,之后将细节数据直接入库。这里的数据仓库一般具备高性能计算能力,用户提交的各种数据分析请求,都可以直接基于细节数据进行实时计算,在几秒之内返回结果。

   这样的数据分析流程不再需要IT部门深度参与,主要由商业用户自己完成,而IT用户主要做好轻度ETL、轻度建模、平台监控等工作。大家可以阅读以下我的另一篇文章《谁是BI平台的深度用户? 》,链接是:

http://mp.weixin.qq.com/s%3F__ ... %23rd

    拿我们BI的一个客户举个例子吧。国内最大母婴社区宝宝树将永洪BI应用于社区数据分析,主要用户不是IT人员,而是业务人员。业务人员通过行为数据和搜集到的孩子年龄、孕产期等关键数据,给用户做出精准画像。积累关键数据后,业务团队会做深度分析。

比如上周有多少新用户?推的新品收入增长怎样?上个月的新用户这个月的购买情况如何?用户的平均回购周期相对环比是缩短了还是延长了?各渠道引流占比有何变化?通过在BI平台上进行交互式分析,这些问题的答案很容易浮出水面,继而他们就知道下一步如何来调整产品、推广和销售计划了。

大家知道,BAT等互联网巨头都认为自己是大数据企业,数据已经成为了企业的核心资产。如果我们不收集存储好“矿石”,或者不开展有效的“精炼”工作,在商业竞争中将处于下风。BAT这样的互联网巨头一般都有多达几十甚至上百人的IT研发团队,他们的实力比较强,主要基于开源技术按需定制数据分析平台,完成数据的存储、建模、分析、预测工作。当然,对绝大多数企业来说,通过与永洪科技这样的优秀BI厂商合作,将是性价比和成功率都很高的选择。

皮皮(Q4):商业银行的网点非常多,每天的现金流都不一样,那么银行面临的问题就来了,怎么解决或者平衡各网点的现金流问题?银行能否利用商业智能为我们提供各种智能化和个性化的服务呢?对于航空公司来讲,订票系统有没有可能根据个人的历史订票记录去预测未来哪些潜在客户在什么时段内预订机票呢?发电企业如何根据历史发电量、历史增长率和其他因素去预测未来几年的用电需求呢?这些貌似与我们息息相关的困局能否通过商业智能来解决或者完善呢?

何春涛(A4):对于怎么解决或者平衡各网点的现金流问题,商业智能可以采取的手段比较多。一方面我们可以根据历史数据进行机器学习,为网点建立合适的现金配备模型;另一方面为了应对临时需求,在现金配备大大高于或者低于现金需求的中位值时系统及时触发报警,这样银行网点就能及时验证报警并采取修复手段。

说到金融行业,不少股份银行是基于永洪BI建立了自己的营销系统,目的之一就是为了给金融客户提供更好的个性化服务。基于原始数据,系统会首先进行“用户画像”,比如基于AUM值将用户分层,基于理财偏好将用户分群,再提供个性化的智能服务。比如用户打开手机银行终端,他看到的前几个理财产品已经是个性化的。

国家电网以及一些东部大省的电力公司都是我们的客户,他们在BI领域的建树也是令人称道的。随着智能电表的普及推广,他们的监控能力在某些场景中已经精确到每个用电用户,通过BI平台,一旦用电量只剩50度电时,就会发消息温馨提示一下用电客户。

皮皮(Q5):实时计算一般都是针对海量数据进行的,一般要求为秒级。对于大型网站的流式数据,比如网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等,实时的数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况等。这些数据源是实时的不间断的,要求用户的响应时间也是实时的,那如何实现大数据实时计算与流计算呢?

何春涛(A5):我们在电信运营商有一个场景,是对各种上网数据进行病毒和安全监控,防止手机等终端感染病毒或受到攻击。记得当时支撑这个场景的刀片服务器接近200台,即将超过400台。整个集群横向分为三层:分别是实时计算层、流计算层、离线计算层。我们对集群进行了纵向分割,把这个大集群变成了小集群,以去除服务器和网络之间的干扰。这样一来,整个集群可以实现快速水平扩展,而处理能力随着集群规模的增长,也实现了线性增长。

实时计算和流计算可以采用一些开源框架,譬如Storm、Spark等,在设计架构时,我们重点测试了一下Storm,在未经深度调优的前提下,从收集的实验数据来看,处理能力达不到系统的设计要求;我们也试着寻找国内外有无在类似规模上使用Storm的场景,结果也不太好。

这些年大数据分析成为了我重点发力研究的一个方向,在分布式领域我拥有一些专利技术。这些技术在类似的项目中发挥了关键作用。不管是采用开源还是闭源技术,我们需要灵活运用分布式计算、内存计算、分布式通信、可靠性等领域的知识和经验,才可能更好地实现大数据实时计算与流计算。

皮皮(Q6):作为商业智能的核心,数据仓库需要将历史细节性数据归档到离线的存储设备上,主要用来支持企业管理人员的决策分析,那么它究竟与数据库有什么区别呢?怎么做到数据的备份与恢复、数据归档、系统监控?

何春涛(A6):一般地,数据仓库是一个逻辑概念,而数据库是一个物理概念。数据库系统可以很好的解决事务处理,实现对数据“增删改查”等功能,但是却不能提供很好的决策分析支持,事务处理优先考虑的是响应的及时性,决策分析需要考虑的是数据的集成性和完整性,将大部分数据从OLTP系统中剥离出来,就形成了今天的数据仓库系统。

打造企业级数据仓库,可以用合适的数据库承担数据存储和计算功能。数据备份和归档,在以前往往用磁带做数据的定期备份,而现在的大数据中心,很多采用Hadoop承担数据存储和离线计算功能。Hadoop的分布式文件系统HDFS自动完成数据的备份与恢复工作,而系统监控也有类似Ambari等开源项目可以使用。

皮皮(Q7):拿监控行业举例吧,监控行业的大数据,以一个部署了1万个摄像头的中等城市为例,假定每个摄像头每秒压缩视频数据量为1Mb(比特),则一天共产生108TB的视频录像,而城市犯罪信息等重要数据也有几十年的沉淀。面对海量的监控和警务数据,大数据平台能否实现智能化的信息分析和预测?

何春涛(A7):基于监控数据的分析和预测,技术已经比较成熟,不管是分析还是预测,很多人做得不错,成功案例也不少,举个例子来讲,在美国洛杉矶,警方通过对数据分析,能预测出来12小时内哪个地区最有可能发生犯罪案件。非常有趣的事实是, 关于犯罪预测,其中有一个重大起因源于地震预测。 洛杉矶警察局采用了一套用于预测地震后余震的数学模型:大地震之后, 在附近地区随后发生余震的概率很大。借助这个数学模型,洛杉矶警察局把过去80年内的数百万个犯罪纪录输入了模型。数据显示,当某地发生犯罪案件后, 不久之后附近发生犯罪案件的概率也很大,这与大地震之后余震发生的模式十分吻合。刚开始大家半信半疑,到后来经过验证,这一系统已经成为了警方分配警力、安排巡察的重要依据。

在英国,英国政府通过高效使用公共大数据技术每年可节省约330亿英镑,相当于英国每人每年节省约500英镑。

皮皮(Q8):正所谓百闻不如一见,一图胜千言,足以见得人类离不开可视化。而数据的可视化可以堪称是技术与艺术的完美结合,是整个商业智能和分析平台的最上层展现环节。主流的数据可视化工具有哪些?有的免费,有的付费,在数据可视化工具的选择中,有哪些需要考虑的因素?它们适合什么样的应用场景?

何春涛(Q8):对于主流的数据数据可视化,国际厂商有QlikView、Tableau,国内永洪科技的Z-Dashboard不错。开源项目也很多,单Web端国际上就有D3、InfoVis、Processing等知名项目,国内百度的ECharts也做得不错,可视化和统计分析工具上,像Excel、Giigek Chart API、R语言用的人也非常多。

初了考虑是否开源以外,大家在可视化工具的选择上,也会关心这款可视化工具是否操作简单、可视化效果是否丰富、数据集成是否支持多种方式、数据源的兼容性等因素。

如果你有5个甚至更多的Developer,能够承担项目失败的风险,需求不经常变动,可以考虑基于开源项目。如果你希望有一款工具能很让你卓有成效地进行交互式可视化分析,建议选择与优秀的数据分析厂商合作。

0 个评论

要回复文章请先登录注册