数据研发之路的小结

浏览: 2211

在做软件研发的早期,我还是以编程为主。那个时候的编程,不但要coding前后台,还要做SQL调优、维护,还要变现报表。也正是在这个时候,才确定自己想走数据研发这条路。

09年是一个转折点。

从这之后,所有的数据研发都是围绕多维数据库、MDX、SSRS、SSIS等。在这期间不断的给自己充电,深入了解每一项技术背后的原理。

也正式这段时间,我总结出了支点学习方法。

第一个支点是数据库。当时在实际生产需要的情况下,熟悉了SQLSERVER/MYSQL/ORACLE/ACCESS等数据库,以及在什么场景下使用哪种产品。

这个点的知识面开阔了以后,自然想到了如何在不同数据库间进行更换的数据交换。

引申出第二个支点:ETL。

由于场景限制,深入使用了sqlserver + SSIS的组合来完成多数的ETL工作。

第三个支点是数据仓库和多维数据库。

有了这三个支点,就可以进行具体的BI产品研发。参与更多的BI产品,就可以重新围绕这几个支点学习到更多的知识。

知识的总结很重要,不但要熟悉知识本身,还需要发散思维,多问自己几个为什么。

例如为啥SSIS在读写sqlserver很好,但是在读写oracle一般?其他工具,比如kettle,datastage在这种场景下有什么优势?这几个工具的调度、配置、维护上有什么区别。

几个问题下来,又是一番如饥似渴的阅读和实操。

以上的知识让我度过了好些年,做成了几个项目。随着时间的深入,我那爱自问的毛病又犯了:如何节省多维的预计算?如何支撑更大量的数据计算?数据怎么做到实时?一条sql能同时在多台机器上处理吗?

说实话,这些问题一直在困扰我,一直鞭策我去阅读,去学习。

如果我可以做到,那就等于我自己革了自己亲手做的BI产品的命。但是实势如此,自己不革命,等别人来革命,那就晚了。

第一次接触到Google 的GFS论文,如获至宝,这简直是救命良药。看到开源的Hadoop,NOSQL等,便毫不犹豫地学习。一段时间总结下来后,整理了基于Hadoop的数据平台架构设计文档,直接报给总监。

得到上级批复后,我们重新上路,前面是星辰大海。

想当初,卸下包袱走上大数据平台是一件挺悲壮的事情。我们当时喊出的口号是“数据三人行,不行也得行!”。

但是,自此,我获取到了知识上的一个极为重要的支点——大数据(hadoop)。

记得在公司推行Hadoop的时候,我们缺资源、缺人手。要想成功,只有一条路:尽快变现一个应用。

为了这个目标,我们加班加点设计个性化推荐的系统架构,规划Hadoop集群、hbase集群、mahout、sqoop等组件的使用场景,亲自变现协同过滤、全国踩点等算法的mapreduce实现。

功夫不负有心人。

现如今,大数据团队共有40+,在yarn,hbase,hive,spark,kafka,flume,storm,solr,mpp数据库等技术方面都有专人跟进,也构建了支撑每天几亿以上的实时消息处理平台。

在围绕Hadoop的大数据平台建设上,虽然有了点成果,但是离支撑公司所有离线业务的梦想还有一些路要走。

总结:

学习一定要掌握好方法,要有好的总结,要自己问自己为什么。

目标一定要有,最重要的是坚持、自信。此处的自信是来源于自己的技能、知识面和对未来的一个判断。

在走向目标的道路上,一定要多复盘,多总结,多听取他人意见,及时修正方向。

推荐 8
本文由 Bob 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

9 个评论

学了好多呀。。
09年,现在是15年,6年的差距啊。早看到这篇文章就好了。
这是要出连集的节奏。
坐等下一集
学习了
有理想就是好啊
个人的一些感悟,没有下一集哈。
一直在做大数据开发,忙
数据三人行,不行也得行。。。。继续加油,完成我们的梦想。给你点赞
多问几个为什么,就比别人会的多一些。

要回复文章请先登录注册