关于公司搭建一个数据仓库的疑问

1
   各位大牛,上午好,本小菜鸟到今天刚好在新公司过了试用期.现在公司要建一个数据仓库,哎,有点压力,有些疑惑,下面介绍一下,希望大神们帮我解答一下.
1公司现状
公司现在处于传统行业向互联网转型的过程当中,所以公司新增了很多的系统,但是这些系统都没有完全定型吧,还存在大修大概的情况,有些甚至还在叠代开发中.盘点了一下,大概有8个系统,需要进入数据仓库的表不少于150个.现在公司的数据量不大,单表最大也只有千万级别,绝大多数都是百万不到,每天新增的数据量也只有十万级别,但是预计转型成功后数据量会激增.
2公司搭建数据仓库的目的
就我这几个月的感觉,公司搭建数据仓库的目的,只是想把各个系统的数据集成到一起,做一个综合的报表系统,以此来减轻各个系统的压力.(最少在1-2年内,我认为目的大概是这样).
3本菜鸟
菜鸟我从事BI事业(事业貌似说的有点大)5年,呆过两家公司,第一家是制造业,第二家是电商.
业务:现在的这个公司业务上完全是一个新的领域,这个需要重头开始研究.
技术:oracle体系和微软体系和第三方(QlikView)都用过,但是对微软的最熟.微软的体系从需求建模,实施,运维,全程都有负责.
以上是前提,下面说说现在的疑惑
(1)架构体系的选择
为什么有这个问题,是公司觉得微软的前端展现不怎么好,特别是移动端.但是也没有完全否定不能用微软的体系
(2)工具的选择
主要是ETL工具和前端展现工具的选择,是用开源的还是不开源的.可能在SSIS,DS,kettle中选吧.然后前端展现,不知道用哪个.
(3)人员
现在团队就两人,我主要负责技术,另一个主要负责业务吧.这个是我很担心的两个人我都不知道怎么搭建一个完整的数据仓库,之前公司都是10几个人的.虽说以后会招人,但是我觉得不会超过5人,我觉得不够,不知大牛觉得几个人才够.
(4)源系统变更
前面说了来源系统变更,不只是数据结构的变更,业务逻辑的变更也是常事.这个我该怎么实施ETL呢,怎么把各个系统的数据集成呢.
(5)数据仓库分层
我目前的想法是分三层
stging(源系统数据暂存层)-->EDW--->DM
不知道这样合不合理.
以上5个问题,希望大牛帮我解疑,谢谢.
 
 
已邀请:
4

老头子 - 专注是唯一的捷径 2016-01-27 回答

(1)架构体系的选择
看你说了很多都是技术上的东西,你不应上来考虑技术架构,正常的架构规划应该是搞清楚业务架构 - 应用架构 - 数据架构 - 技术架构,技术架构只是实现。 你第一步把技术限制死了,万一不支持你们的需求,不支持你整个体系的应用架构、业务架构怎么办呢?

(2)工具的选择
因为现在我们常用的那些ETL功能,基本市面上的工具都能实现。所以:
第一点看你们有没有钱,没钱就买开源的。
第二点要看这个工具后续维护成本和难易度,Datastage、Informatica、kettle这些工具在市场上都不难找到相应的人才。

(3)人员
我觉得你这样很好啊,我很期待一次从0到1,从无到有的机遇,可惜一直没有。
这个要根据你们领导对当年的IT规划和对你的KPI考评来定吧,如果评估出来100人天的项目让你一年干完,你5个人也足够了,哈哈。

(4)源系统变更
还是一开始说的,从调研需求开始,组织收集各部门需求、期望以及痛点。从而制定相应的EDW,如果有业务专家就更好了,结合业务领域的看法可以更精准的定制EDW。ETL不拿无用数据,所以你的EDW到底是一个宝藏库,还是个垃圾堆,就看你前期调研以及对业务领域的造诣了。
 
(5)数据仓库分层
这个根据实际情况来,做数据架构的时候根据前两个架构来搞。
1

jjzhangfre - 数仓、ETL 2016-01-13 回答

本人也是小菜,说下个人见解。
1.架构体系的选择,工具选择
 你这边的第一个问题应该也是工具的选择,只不过是报表端。选择什么样的工具要结合实际情况。比如公司想要看到什么样的效果,移动端要看到什么样的效果,对性能的要求,公司能作多少投入;从开发角度讲公司现有技术人员能否支撑该工具的相关开发,或者是否愿意花时间去研究相应工具,或者招新的技术人员。
3.人员
 我觉得主要需要考虑技术人员的分布,多少人做ETL,多少人做报表开发。个人来看ETL工作量大而繁琐,需要更多的人员。至于具体人数,人多项目周期缩短,人少项目周期长咯。
 
4.这个业务逻辑也变更真没什么好办法。可以按Inmon理论实施,先建一个基础数据完善的DW,DM层试业务情况。
 
5.分层
 对于分层我觉得不必拘泥于具体建几层比如考虑到对源系统的影响,多数据源,细节数据需要建个ODS层,需要对数据作轻度汇总,保留历史数据等建DW层,到具体应用,维度建模建DM层;需明晰没层的作用,需要达到什么目的。
以上个人见解,欢迎批评指正!
  
0

哥本哈士奇 - 专注微软平台的商业智能解决方案 2016-01-30 回答

第一个问题,你要想好,其它零散的平台确实展现不错,但价钱也更高,授权策略也更复杂。
问题二和三可以结合一一起回答,你所选的平台决定了hr的成本。
问题四,所以说BI为什么要建模。
问题五,我见过的三层比较多也是目前通常最合理的。
0

jackharkness - 90后IT男 2016-02-24 回答

你和我现在的情形一模一样,请问现在你是怎么做的呢,能交流一下吗?

要回复问题请先登录注册