支撑大数据技术体系的“5个中心”

浏览: 974

今天给大家分享的是:中软国际银行事业部总经理刘觅在Smartbi大数据技术峰会上的题为《实时信息服务体系探索和价值发现》的演讲内容。刘总分享了含金量非常高的1个思维过程,1个团队学习模型,8个小的milestone,并对产业快速变革的大时代中企业如何构建实时运营能力进行了极具前瞻性和可操作性的深度分享。

Smartbi大数据分析技术峰会

演讲分享内容如下

在大数据环境之下,传统的数据仓库建设在相当长一段时间内仍是企业级信息管理和服务的主体工作之一,但技术、方法、理念都必须与时俱进,特别是在实时运营的现实紧迫要求之下,必须建立“对过去、现在、未来保持‘开仓’”的能力。中软国际以“5个中心”的大数据技术体系支撑了企业实时资产、实时综合信用评价、实时风险阻断、在线行为实时推荐的架构和实战。

随着技术的发展,我们从竞品的思维方式和角度去看,在各行各业中到底应该如何去协助企业解决下列问题。

各行业的实时诉求

Smartbi大数据分析技术峰会

目前我涉猎了很多行业,如工业、农业、制作业、金融业、流通业还有电信及综合服务行业。

拿金融业举例,金融业目前更多地考虑的是,实时的客户画像和预警。曾经是我们识别这个人、认识这个人,所以他是我忠实的客户。但现在的情况是,所有人对于我来说,都是陌生人,因为你们每时每刻都在变化。所以金融业考虑的问题就变成,如果有一天我要进一步深入的以客户为中心,更多要求的是什么呢?是我需要实时掌握给我带来利润的那些人的动态,包括他们是怎么想的、如何做的?这个思维方式其实和曾经是不太一样的,曾经他们并没有任何的技术支撑去实现这件事。

与此同时,对于人和事情的识别,带来了一些风险的管理和控制。过去人们更多看到的是“以往”,而现在人们越来越对“当下”充满欲望,这个“当下”,就是通过数据体现出来的。这个时候就催生了对于全景类数据、关键类数据、还有指标类数据的实时的把握与掌控。

制作业和工业过去是进行资源和行为的预测,现在更多强调的是直线资源和虚线资源如何再分配和分配更好的问题,那么当然就涉及到智能分配。

实时需求在电信和服务业、工业农业上带来的诉求会更大,很多是已经开始了实践活动。前一段时间,我经历了一个特别好的案例,在农耕时节,农民现在都是批量的种植,他们对实时把控有更高的要求,比如对于天气、对土壤的湿润程度,设备的运行健康程度等,都希望有实时的把控。这样会实时的调控相应的设备进行耕种,调配实时的人力资源进行农业环境的检测和监控,以确保农作物的生长和种植处在一个实时被掌握和了解的情况下。

我们团队目前正在考虑的就是通过什么方式来解决这些越来越多的实时处理诉求。

解决行业实时诉求的方法

Smartbi大数据分析技术峰会

过去的数据仓库其实是一个综合的服务类平台,而现在更多的是把它作为资产的共享和展现类的基础数据中心。而上述这些诉求,都是我们团队所考虑的问题。从过去现在未来的思维方式,结合大数据的技术,总结下来包括下面几点:

1. 保证历史数据有非常好的整理和存储,能够对历史和经验进行有效的总结和提炼;

2. 面向日志,面向对象实时的掌控和了解。我们可以通过现有的CEP或者是流的技术包括底层的解析技术来进一步的处理。

3. 实时的监控和风险处理。如实时生产监控、实时渠道分析、实时风险评估、实时场景推荐等。

4. 进行智能化应用,如智能机械、智能交互、智能策略等。

未来主要是预测挖掘人工智能的领域,不同的时代有不同的叫法,但是了解当下永远是最重要的一个关系,我们所有的技术员都面临着过去、现在和将来。

对过去现在未来保持开仓状态

Smartbi大数据分析技术峰会

技术发展到现在,前一秒发生了什么,这一秒正在发生什么,下一秒会发生什么。如果通过技术手段能够实现这三秒的掌控,在大部分的技术领域和应用领域就会有质的突破和非常重要的业务。我们在考虑这些问题的时候,给它取了一个开仓的状态。保持对过去、现在、未来开仓的状态,是我们在考虑事情时面临的最重要的问题。

实时最典型的诉求,包括阻断式异常行为、实时客户全景、实时天气土壤影响、毫秒级标签重构、当前及其十分钟预警等。

毫秒级标签重构举例:每个人在不同行为下的认识是不一样的,这就是重构我在你心目中的标签。比如有的人看老师右手在举麦,有的人说他为什么在不断的来回走,这就是一个标签,如果所有的同事把对老师的认识形成一个实时的合集,那么这个标签就非常的准确。可能会很好的预测我下一秒是右脚往前走。这就是机器学习加上实时分析、实时数据的一个最基本的诉求,正是我们团队在考虑的重点问题。

实施阶段的考虑

Smartbi大数据分析技术峰会

在实施阶段我们已经经历,比如说重排、实时的队列、实时的消息、消息的互动,包括扫垃圾、时间过期,还有排行、计数器、实时的通讯和实时序列的管理等,考虑的不外乎就是排序的“最好”、“最坏”,所有标签优先级的调整,以及队列的顺序这些基础的问题。

八个阶段的思维方式

Smartbi大数据分析技术峰会

所以我们没有更多的站在纯粹的技术角度上去处理这些技术问题,我们首先是考虑了一个思维的方式和做事的方法。现在我把一个含金量非常高的八个阶段的思维方式和思维方法,分享给各位管大数据的同事、用大数据的同事、以及做开发的同事。

其实我们最开始考虑的第一点就是,如何灵活的、水平的扩展以及如何进行有效的管理。而由于每一条消息都是高并发的、并不固定的状态,所以第二点就是保证每一条消息都能够被处理。与此同时还要全面的管理有、无状态任务,之后考虑的就是单一的失败后处理机制。再然后我们需要考虑的就是“水库”式集群的必要性,而“水库”式集群指的是在当前这个大数据的环境下,模型的建设已经显得不是那么重要了,因为技术已经解决了很多原来需要模型来解决的问题。而紧接着的就是降低基本单元分组的算法,以及资源的再分配及任务调度。而最后才开始考虑,把上面的这七个小的问题落实成了解决方案,我们派一个人解决一个小的问题并让他们之间进行串联,最后再考虑封装和组件化。

6个基础模块的新总线能力

Smartbi大数据分析技术峰会

除了基础后台管理以外,在我们搭建的最基础模块里,第一个就是装载及文件生成、自动化信息目录管理模块,第二个实时解析数据服务是一个重量级的组件,里面包括了不同日志的解析、数据库的解析、不同产品的底层抓取和解析。除此以外原子的服务配置、调度及资源再分配管理在调度层面,尤其是跨队列任务管理的时候,显得尤为重要。然后就是三层监控管理,这个组件也是我们必做的一项。最后,就是我们自动生成查询服务LIST,能够把数据服务总线的基础,也就是所有数据的信息资产,不一定是通过元数据的方式,而是通过服务的方式,全部推送给Smartbi这样的数据分析厂商。

“5个中心”支撑大数据技术体系

Smartbi大数据分析技术峰会

在大数据和实时的环境下,分层显得不是那么重要。我们需要采取的原则是浅分层、宽分类,看数据流,看效率。以效率优先的原则来定义技术架构。下面我们来分享一下支撑大数据技术体系的”五个中心”。

1. 渠道及其综合引擎中心。包含日志推送、DB引擎、文件引擎、数据流引擎等。

2. 数据持久化中心。包括HIVE、HBASE、RDBMS和成品数据中心等。

3. 运算能力及其功能应用和响应中心。实际情况实际分析来帮助客户进行划分比如包括大数据分析中心、数据挖掘中心、大数据探索探查中心等。

4. 体系安全及其管控中心。很重要但是容易被忽略,包括数据安全,内容和数据的生命周期、元数据数据质量和标准的管理。

5. 运营及管理中心。包括作业调度管理中心、系统健康监测中心、用户及其管理管理中心等。

实时框架和大数据存储计算

Smartbi大数据分析技术峰会

大数据技术体系涉及的技术非常多,这里我们大概分为三个部分:左侧是前端数据的管理运算和支持工作,中间部分是处理架构比如Hadoop、Storm,最右侧是内存数据库比如MemCache、Redis等。

我认为中间架构部分比较重要,对于架构的选择我们需要去重点考虑。我们站在数据使用的角度去看,有单纯的P处理架构,有流处理的架构,也有混合处理的架构。但混合式的不一定就是最适合你的,具体要看客户的数据量是重量级还是轻量级别的,是高并发的还是纯粹为了实时要求。对于做实时数据仓库、实时数据服务中心或是构建企业级的实时数据服务能力,都需要从客户数据量和实时要求的实际情况出发。

总结

Smartbi大数据分析技术峰会

在现在技术更迭快速、产业发展日新月异的情况下,我们无法把所有新技术都学习的非常到位。因此我认为,我们需要把重点放到技术发展的理解和各个专业领域里面的深度挖掘上。另外,我们还是有坚定的信念,以创新的思维、严谨的态度看待我们正在做的事情,这样我们终将成为数据领域的艺术家。

推荐 0
本文由 大麦 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册