数据仓库

数据仓库

0
投票
0
回答
124
浏览
0
投票
1
回答
374
浏览
0
投票
2
回答
382
浏览

MDX 取维度范围的度量值

伯乐快乐 回复了问题 • 2018-09-08 15:10
0
推荐
475
浏览

24页PPT,用户画像第二弹,从标签到个性化推荐!为您解密数字化营销

本文是天善智能签约讲师ben老师的课程Hellobi Live  数字化营销与大数据职业发展方向课件,未经允许,禁止转载。推荐课程:数字化营销与大数据职业发展方向

天善智能 发表了文章 • 2018-08-14 10:58

0
推荐
500
浏览

35岁的中年IT男之殇,如何破局走向前方?

合上笔记本,要去吃午饭了,倒杯水先,整个上午处理事情也没来得及喝水。一个上午又过去了 ,感觉也没忙多少实际的事情,是的,又是重复的一个上午。我已经35了,辗转几家,现在在一个创业公司做项目部经理...

天善智能 发表了文章 • 2018-08-07 15:38

推荐
浏览


xeh5ud 发表了文章 •

推荐
浏览


k3ho8p 发表了文章 •

推荐
浏览


na367v 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

推荐
浏览


xeh5ud 发表了文章 •

推荐
浏览


k3ho8p 发表了文章 •

推荐
浏览


sny8md 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

条新动态, 点击查看
农夫

农夫 回答了问题 • 2015-10-27 13:05 • 5 个回复 不感兴趣

如何保证数据质量?

赞同来自:

数据质量这块深有体味,曾经开发实施ERP多年,接过很多ERP业务需求并深入了解过业务,BI报表的需求等,有关数据质量分几种:
1.系统BUG问题:
 产生原因:A.开发测试验收流程不规范,遵循开发加自测=》测试=》业务需求部门验收的流程操作,减少这块引起的数据... 显示全部 »
数据质量这块深有体味,曾经开发实施ERP多年,接过很多ERP业务需求并深入了解过业务,BI报表的需求等,有关数据质量分几种:
1.系统BUG问题:
 产生原因:A.开发测试验收流程不规范,遵循开发加自测=》测试=》业务需求部门验收的流程操作,减少这块引起的数据质量问题。
        B.开发过程中,可能版本控制的问题,对公用的过程,我修改后另外的开发人员进行覆盖等等问题
 解决方案:A.规范开发测试及版本控制流程,没有任何捷径所走,上面几个朋友都有提到,对已发生的问题开发人员进行修改;
        B.曾经使用过一套平台化开发的ERP系统,主要原因是开发人员的进进出去,修修改改,数据质量经常不准确,后来通过3个月的时间,把所有单据明细与库存明细帐、销售明细账、期间表、即时库存、成本表等等所有的过账逻辑在晚上进行修复重算,再更新重算后正确的数据,一举解决了困扰公司几年老大难的问题。但这工作需要对业务、数据结构、ERP业务流程、开发能力都比较强的人员来操作,才能保证重算的准确。
2.分析指标统一口径问题:
 产生原因:在一公司做BI系统的时候,指标口径不统一,比如像成本有:门店成本、销售成本、加成成本等等好几个,每次开会的时候,采购部、销售中心、财务中心、市场部等等拿出来的数据可能名称一样,但数据都不一样;
 解决方案:我想这一块还是比较好解决的,只要先统计整理公司所有的指标,然后把业务部门请上来,统一指标名称、指标解释、计算公式等,就不会产生同一个人,这个叫李老四,那个叫李二狗。
3.企业不同的时期业务系统处理方式上逐步优化产生的数据差异:
 产生原因:企业在不同的发展时间,系统处理会有所差异,特别是二开比较多的公司
 解决方案:A.后续规范的数据与前面不规范的数据,看是否可以通过相对应的关系,进行整理统一;
        B.如果上述都不能处理的话,我想还是对前面的一些数据进行分开统计分析,否则两者不一样统计了来会误导业务人员
        以前在一通讯行业工作的时候,原来在联通新用户(存费送机、购机送费、单开户)、老用户等等以前都是通过一个或几个字段的状态标志进行区别,后来业务发展,发现这样太复杂,后来做了一个政策层级的分类,统一规范。在处理前面数据的时候,对以前的数据进行修复处理,以保证与后续的数据统计方式一致。否则区别两个统计方式。
4.因为实际业务过程中无法规范而产生的数据质量问题:
 问题举例:在一服装制造行业工作的时候,来统计产品的实际工时,因为是A产品完工、B产品新生产,在这一交接阶段,同时进行生产,无法正确的统计实际的生产工时,这是正常的实际情况。
 解决方案:后与业务部门沟通,将当天的实际工时根据当天完工产品的理论工价来按比例分配,这样对统计分析虽然会有不真实的情况,但也是能相对真实。
 所以碰到问题的时候,可以是否可以折中处理,只要不完全违背统计分析的原则,还要以考虑相应的处理方式。
 说了这么多废话,希望可以在实际工作中引起一些思考。
BIWORK

BIWORK 回答了问题 • 2015-10-09 15:18 • 13 个回复 不感兴趣

关于数据仓库模型的选取和大家进行一个讨论

赞同来自:

个人理解:
星型模型和雪花型模型没有绝对的谁好谁不好之分,都是维度建模的一种设计思想,只是看在什么情形下使用。
 
星型模型的提出主要是方便业务人员理解业务模型,通过什么样的维度来看数据,星型模型更加直观,并且查询效率高。雪花型模型对于业务人员来说直观程度不够... 显示全部 »
个人理解:
星型模型和雪花型模型没有绝对的谁好谁不好之分,都是维度建模的一种设计思想,只是看在什么情形下使用。
 
星型模型的提出主要是方便业务人员理解业务模型,通过什么样的维度来看数据,星型模型更加直观,并且查询效率高。雪花型模型对于业务人员来说直观程度不够,并且在查询上效率略低。
 
但是我来举一个反例。
日-月-年,产品-产品小分类-中分类-大分类,国家-省份-地区 加一个事实度量。如果每一个日,月,年类似于这样的都是一张维度表的话,就意味着这张事实表的外键涉及到上述所有的维度,变成 10 个外键维度和一个事实度量。可以想象一下这样的事实就如同一条蜈蚣一样形成了一个蜈蚣事实表,维度外键过多,虽然是星型模型但是实则并不好。
 
退一步说,这张事实表只关联到日,产品,地区这三个维度,日-月-年 成为日期维度的一部分属性,这种情况最终三个维度+一个事实,这种星型模型要稍微好一点。
 
我继续基于这个星型模型再来说明,我假设在产品维度中(产品-小分类-中分类-大分类) 假设小分类,中分类,大分类各有5个非重复的值,但是却有10W个产品。也就意味着在产品维度中,小分类-中分类-大分类差不多要重复10W次。 也就意味中如果要统计分类的量需要从这10W条里面做去重统计操作,这种做法我认为效率很低。
 
再次,如果小分类,中分类,大分类不仅仅是一个标签而且还包含着标签描述信息和其它的属性,可想而知在星型模型下的处理方式就只能扩展同样重复的字段,这种重复率随着需要补充描述的属性越多变得越高。反之,如果再把这些单个的小分类,中分类拉出去形成维度和事实度量值构成一个星型模型,就又回到我刚才说的蜈蚣表了。
 
所以,没有最好的设计,只有最合适的选择,我们就从上面的几个设计推演就能考虑很多星型模型的弊端,在很多时候不一定就是最好的。
 
关于第二个问题可以看看我的这篇文章 - http://www.flybi.net/blog/biwork/1084 微软BI 之SSAS 系列 - 维度的优化、灌木丛属性关系、以及自然层次结构与非自然层次结构的概念
 
Devin

Devin 回答了问题 • 2016-03-21 13:51 • 3 个回复 不感兴趣

亲们 Erwin逻辑模型怎么映射物理模型啊

赞同来自:

没太搞懂你的问题,你是想在ERWIN里面把逻辑模型转换成物理模型么? 这类建模工具都有提供讲逻辑模型转换成物理模型的功能,也支持多种数据库,比如常见的Oracle,DB2等等。
没太搞懂你的问题,你是想在ERWIN里面把逻辑模型转换成物理模型么? 这类建模工具都有提供讲逻辑模型转换成物理模型的功能,也支持多种数据库,比如常见的Oracle,DB2等等。
seng

seng 回答了问题 • 2017-03-01 11:09 • 1 个回复 不感兴趣

BIEE+mysql 使用ago函数的优化问题。

赞同来自:

同比环比可以使用日期对应表,记录的数据如
2017.1.1 -  2016.1.1
 
同比环比可以使用日期对应表,记录的数据如
2017.1.1 -  2016.1.1
 
Bob

Bob 回答了问题 • 2017-03-14 13:22 • 1 个回复 不感兴趣

数据仓库从MySQL向大数据平台迁移的方案

赞同来自:

数据仓库建议选择使用hive,用hql语句也能完成update delete的操作。
如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查询语言是类似mysql的语法。
 
迁移的优先级建议先搬迁底层原始数据、然后建立ETL清洗规则,最后... 显示全部 »
数据仓库建议选择使用hive,用hql语句也能完成update delete的操作。
如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查询语言是类似mysql的语法。
 
迁移的优先级建议先搬迁底层原始数据、然后建立ETL清洗规则,最后搬DW数据。
在搬迁底层数据时建议你hive原始表与mysql的原始表保持结构一致。
不需要,基于多维建模事实表由两部分组成,一部分是维度部分,即维度表相关外键信息。一部分是度量部分,是事实表真正要存放的数据,即金额,数据等,即指标。
 
设计要考虑的部分
 
1。根据分析主题确认适合的粒度。
2。考虑增量获取数据,即 增加时间戳。
3。不要包... 显示全部 »
不需要,基于多维建模事实表由两部分组成,一部分是维度部分,即维度表相关外键信息。一部分是度量部分,是事实表真正要存放的数据,即金额,数据等,即指标。
 
设计要考虑的部分
 
1。根据分析主题确认适合的粒度。
2。考虑增量获取数据,即 增加时间戳。
3。不要包含 描述性的信息,也 不要包含除 事实表与维表中对应的关联字段 之外的数据。
 
看你应用目标了,
 
不过吧,如果你搞不准,干脆分别建一个维度、一个度量,根据不同的场景用不同的
看你应用目标了,
 
不过吧,如果你搞不准,干脆分别建一个维度、一个度量,根据不同的场景用不同的
gogodiy

gogodiy 回答了问题 • 2017-05-22 17:59 • 1 个回复 不感兴趣

tableau能连数据库中的存储过程吗?

赞同来自:

MSSQL可以,注意在添加存储过程的时候,如果有参数,需要给定参数值。
MSSQL可以,注意在添加存储过程的时候,如果有参数,需要给定参数值。
悟

回答了问题 • 2017-06-09 00:17 • 1 个回复 不感兴趣

BI针对高层的售前需要准备什么PPT材料比较好

赞同来自:

这是我之前做的一张PPT,给领导汇报肯定是要偏管理、宏观、风险、预测方面。

40370
 
这是我之前做的一张PPT,给领导汇报肯定是要偏管理、宏观、风险、预测方面。

40370
 
悟

回答了问题 • 2017-06-14 10:40 • 4 个回复 不感兴趣

SQL SERVER 中MTD,QTD,YTD如何写SQL 语句?

赞同来自:

SQL中没有这样的函数,但是你可以把大段的公式写成自定义函数。
SQL中没有这样的函数,但是你可以把大段的公式写成自定义函数。
我不知道你这个会计时间的维度是不是做过处理了,如果是的话那么它的起始时间与结束时间可能不是自然月
一般是不需要合并的,只需要简单的在 row上,再加一个计算量值
我不知道你这个会计时间的维度是不是做过处理了,如果是的话那么它的起始时间与结束时间可能不是自然月
一般是不需要合并的,只需要简单的在 row上,再加一个计算量值
这个刚刚试了下,也是可以的,没想到啥好办法,刚试的方法,需要绕个圈:
就是Foreach循环的时候,每一次循环,都可以获取当前导入的数据量即行数,存到一个变量里;
然后再将这个变量和另一个汇总变量相加,存到汇总变量里,就可以了,截图看下
首先是这2个变量
ex... 显示全部 »
这个刚刚试了下,也是可以的,没想到啥好办法,刚试的方法,需要绕个圈:
就是Foreach循环的时候,每一次循环,都可以获取当前导入的数据量即行数,存到一个变量里;
然后再将这个变量和另一个汇总变量相加,存到汇总变量里,就可以了,截图看下
首先是这2个变量
excel_row_count:记录每一次循环加载的行数
excel_total_count:记录总行数
45819
然后,看下我这个例子
这个read_excle:就是循环读取excel了,将数据插入到数据库
total_count:就是计算总行数,
45820
 
注意这个excel_total_sql:我是使用SQL来计算了个和 select excel_row_count+excel_total_count
45821
 
最后将结果集返回

45822
 
最后测试结果是可以的
 
 

 
liutangwow

liutangwow 回答了问题 • 2017-08-09 10:59 • 1 个回复 不感兴趣

SSIS循环抽取EXCLE文件,记录文件名到日志?

赞同来自:

可以的,在遍历的时候,可以获取文件名称,可以选择获取的文件名称还是文件全路径名

45814
 
在变量映射中,我们可以获取到变量

45815
 
可以的,在遍历的时候,可以获取文件名称,可以选择获取的文件名称还是文件全路径名

45814
 
在变量映射中,我们可以获取到变量

45815
 
46815
用个函数ifnull就可以啦 ,见上图,除非是你的模型建的不对
 
46815
用个函数ifnull就可以啦 ,见上图,除非是你的模型建的不对
 
问题已解决,原因是由于id设置了不能为空,而id的值是数据库中的sequence,报不能解析的警告,把不能为空not null检查(仅限于流)的勾去掉就好了
问题已解决,原因是由于id设置了不能为空,而id的值是数据库中的sequence,报不能解析的警告,把不能为空not null检查(仅限于流)的勾去掉就好了
0
投票
1
回答
1095
浏览
0
投票
2
已解决
669
浏览
4
推荐
1187
浏览

Friday BI Fly | 2016年11月4日晚8点半微信直播交流游戏行业数据仓库存储模型第38场 图文版记录

公告周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!未来几期的微信直播活动分享主题将包括在“增长黑客”在Power BI中的应用、Excel商业智能案例分享...

天善智能 发表了文章 • 2016-11-07 10:41

1
投票
4
已解决
1795
浏览
14
推荐
2194
浏览

数据仓库日期维度表 Oracle,DB2,Sqlserver

  数据仓库是BI平台的基础,主要有两大作用:1、统一的,高质量的集团信息视图,更好的保护企业数据资产2、为数据分析和挖掘提供数据基础。   数据仓库中典型的设计方案是维度建模,有兴趣的话大...

攻城的狮子 发表了文章 • 2016-08-21 19:23

0
投票
3
已解决
712
浏览

如何发现用电量异常单位?

BAO胖子 回复了问题 • 2016-06-20 16:11
1
投票
4
已解决
2767
浏览

关于公司搭建一个数据仓库的疑问

jackharkness 回复了问题 • 2016-02-24 15:46
1
投票
5
已解决
1475
浏览
0
投票
3
已解决
2133
浏览
4
投票
13
已解决
3699
浏览
1
投票
5
已解决
2332
浏览
1
投票
4
已解决
2003
浏览
0
投票
3
已解决
1651
浏览

数据仓库需求问题

BIWORK 回复了问题 • 2015-09-08 17:52
0
投票
4
已解决
2193
浏览
0
投票
0
回答
124
浏览
0
投票
1
回答
374
浏览
0
投票
2
回答
382
浏览
0
投票
1
回答
432
浏览
0
投票
0
回答
235
浏览
0
投票
1
回答
994
浏览
0
投票
1
回答
277
浏览
0
投票
0
回答
518
浏览
0
投票
0
回答
850
浏览
0
推荐
475
浏览

24页PPT,用户画像第二弹,从标签到个性化推荐!为您解密数字化营销

本文是天善智能签约讲师ben老师的课程Hellobi Live  数字化营销与大数据职业发展方向课件,未经允许,禁止转载。推荐课程:数字化营销与大数据职业发展方向

天善智能 发表了文章 • 2018-08-14 10:58

0
推荐
500
浏览

35岁的中年IT男之殇,如何破局走向前方?

合上笔记本,要去吃午饭了,倒杯水先,整个上午处理事情也没来得及喝水。一个上午又过去了 ,感觉也没忙多少实际的事情,是的,又是重复的一个上午。我已经35了,辗转几家,现在在一个创业公司做项目部经理...

天善智能 发表了文章 • 2018-08-07 15:38

推荐
浏览


xeh5ud 发表了文章 •

推荐
浏览


k3ho8p 发表了文章 •

推荐
浏览


na367v 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

推荐
浏览


xeh5ud 发表了文章 •

推荐
浏览


k3ho8p 发表了文章 •

推荐
浏览


sny8md 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


wreqy0 发表了文章 •

推荐
浏览


wreqy0 发表了文章 •

0
推荐
629
浏览

【资料大放送】19页PPT|1小时学会建立信用评分卡(金融数据的小分析-Python)

本文是天善智能签约讲师Ben老师的课程:Hellobi Live | 4月26日 1小时学会建立信用评分卡(金融数据的小分析-Python) ,课件,未经允许,禁止转载。推荐课程:1小时学会建立信用评分卡(金融数据的小分析-P...

天善智能 发表了文章 • 2018-04-26 14:55

3
推荐
1129
浏览

【大数据】KSQL初体验

     8月28日,Kafka的作者Neha Narkhede在Confluent上发表了名为《Introducing KSQL: Open Source Streaming SQL for Apache Kafka》的博文,介绍了Kafka新引入的KSQL引擎——一个基于kafka数据的...

w卫东 发表了文章 • 2017-09-13 15:47

0
推荐
546
浏览

数据仓库基本概念01

文章内容来源于视频的内容,大家可以去看视频:https://edu.hellobi.com/course/9/play/lesson/116本文自己作者的笔记内容。本文大概罗列了数据仓库的一些概念:1)数据仓库建设的条件,数据仓库的特点,实现数据...

arya 发表了文章 • 2017-08-10 15:42

  数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。其特征在于面向主题、集成性、稳定性和时变性