数据研发之路的小结

发表: 2015-11-05 浏览: 2211

个人心得

在做软件研发的早期，我还是以编程为主。那个时候的编程，不但要coding前后台，还要做SQL调优、维护，还要变现报表。也正是在这个时候，才确定自己想走数据研发这条路。

09年是一个转折点。

从这之后，所有的数据研发都是围绕多维数据库、MDX、SSRS、SSIS等。在这期间不断的给自己充电，深入了解每一项技术背后的原理。

也正式这段时间，我总结出了支点学习方法。

第一个支点是数据库。当时在实际生产需要的情况下，熟悉了SQLSERVER/MYSQL/ORACLE/ACCESS等数据库，以及在什么场景下使用哪种产品。

这个点的知识面开阔了以后，自然想到了如何在不同数据库间进行更换的数据交换。

引申出第二个支点：ETL。

由于场景限制，深入使用了sqlserver + SSIS的组合来完成多数的ETL工作。

第三个支点是数据仓库和多维数据库。

有了这三个支点，就可以进行具体的BI产品研发。参与更多的BI产品，就可以重新围绕这几个支点学习到更多的知识。

知识的总结很重要，不但要熟悉知识本身，还需要发散思维，多问自己几个为什么。

例如为啥SSIS在读写sqlserver很好，但是在读写oracle一般？其他工具，比如kettle，datastage在这种场景下有什么优势？这几个工具的调度、配置、维护上有什么区别。

几个问题下来，又是一番如饥似渴的阅读和实操。

以上的知识让我度过了好些年，做成了几个项目。随着时间的深入，我那爱自问的毛病又犯了：如何节省多维的预计算？如何支撑更大量的数据计算？数据怎么做到实时？一条sql能同时在多台机器上处理吗？

说实话，这些问题一直在困扰我，一直鞭策我去阅读，去学习。

如果我可以做到，那就等于我自己革了自己亲手做的BI产品的命。但是实势如此，自己不革命，等别人来革命，那就晚了。

第一次接触到Google 的GFS论文，如获至宝，这简直是救命良药。看到开源的Hadoop，NOSQL等，便毫不犹豫地学习。一段时间总结下来后，整理了基于Hadoop的数据平台架构设计文档，直接报给总监。

得到上级批复后，我们重新上路，前面是星辰大海。

想当初，卸下包袱走上大数据平台是一件挺悲壮的事情。我们当时喊出的口号是“数据三人行，不行也得行！”。

但是，自此，我获取到了知识上的一个极为重要的支点——大数据(hadoop)。

记得在公司推行Hadoop的时候，我们缺资源、缺人手。要想成功，只有一条路：尽快变现一个应用。

为了这个目标，我们加班加点设计个性化推荐的系统架构，规划Hadoop集群、hbase集群、mahout、sqoop等组件的使用场景，亲自变现协同过滤、全国踩点等算法的mapreduce实现。

功夫不负有心人。

现如今，大数据团队共有40+，在yarn，hbase，hive，spark，kafka，flume，storm，solr，mpp数据库等技术方面都有专人跟进，也构建了支撑每天几亿以上的实时消息处理平台。

在围绕Hadoop的大数据平台建设上，虽然有了点成果，但是离支撑公司所有离线业务的梦想还有一些路要走。

总结：

学习一定要掌握好方法，要有好的总结，要自己问自己为什么。

目标一定要有，最重要的是坚持、自信。此处的自信是来源于自己的技能、知识面和对未来的一个判断。

在走向目标的道路上，一定要多复盘，多总结，多听取他人意见，及时修正方向。

9 个评论

cognos小白

学了好多呀。。

悟

09年，现在是15年，6年的差距啊。早看到这篇文章就好了。

这是要出连集的节奏。

坐等下一集

学习了

有理想就是好啊

个人的一些感悟，没有下一集哈。
一直在做大数据开发，忙

Jeff_Huang

数据三人行，不行也得行。。。。继续加油，完成我们的梦想。给你点赞

百事悠弦回复 Bob

多问几个为什么，就比别人会的多一些。

要回复文章请先登录或注册