数据仓库
各位前辈,小弟想参与BI的项目
10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用
ETL批量调度-Taskctl 发表了文章 • 2020-11-24 10:11
ETL基础知识有哪些?3分钟让你轻松搞定
ETL批量调度-Taskctl 发表了文章 • 2020-08-03 16:07
元数据是什么?举例告诉你哪种方式更适合元数据的录入
ETL批量调度-Taskctl 发表了文章 • 2020-07-28 17:12
大数据与批量调度的紧密关系
ETL批量调度-Taskctl 发表了文章 • 2020-07-21 15:26
新手一看就秒懂的数据挖掘的10大算法
ETL批量调度-Taskctl 发表了文章 • 2020-07-20 14:39
MySQL Explain 详解(优化MySQL性能第一步)
ETL批量调度-Taskctl 发表了文章 • 2020-07-17 16:00
【开源】企业10万级调度软件 taskctl 6.0 永久免费授权使用
ETL批量调度-Taskctl 发表了文章 • 2020-07-14 15:35
中美两国10万级作业调度工具 "TaskCtl" Vs "Control-M" 如何选用
ETL批量调度-Taskctl 发表了文章 • 2020-07-09 09:54
数据调度平台etl系统二大种类及其实现方法与流程
ETL批量调度-Taskctl 发表了文章 • 2020-07-06 15:30
开源数据调度平台taskctl免费分享领取
ETL批量调度-Taskctl 发表了文章 • 2020-07-03 18:00
【搞事情】10万级商用etl作业调度工具taskctl免费开源了
ETL批量调度-Taskctl 发表了文章 • 2020-06-29 11:33
ETL调度系统及常见工具对比:azkaban、oozie、taskctl
ETL批量调度-Taskctl 发表了文章 • 2020-06-28 15:41
oracle中存储过程刷新物化视图
1.系统BUG问题:
产生原因:A.开发测试验收流程不规范,遵循开发加自测=》测试=》业务需求部门验收的流程操作,减少这块引起的数据... 显示全部 »
1.系统BUG问题:
产生原因:A.开发测试验收流程不规范,遵循开发加自测=》测试=》业务需求部门验收的流程操作,减少这块引起的数据质量问题。
B.开发过程中,可能版本控制的问题,对公用的过程,我修改后另外的开发人员进行覆盖等等问题
解决方案:A.规范开发测试及版本控制流程,没有任何捷径所走,上面几个朋友都有提到,对已发生的问题开发人员进行修改;
B.曾经使用过一套平台化开发的ERP系统,主要原因是开发人员的进进出去,修修改改,数据质量经常不准确,后来通过3个月的时间,把所有单据明细与库存明细帐、销售明细账、期间表、即时库存、成本表等等所有的过账逻辑在晚上进行修复重算,再更新重算后正确的数据,一举解决了困扰公司几年老大难的问题。但这工作需要对业务、数据结构、ERP业务流程、开发能力都比较强的人员来操作,才能保证重算的准确。
2.分析指标统一口径问题:
产生原因:在一公司做BI系统的时候,指标口径不统一,比如像成本有:门店成本、销售成本、加成成本等等好几个,每次开会的时候,采购部、销售中心、财务中心、市场部等等拿出来的数据可能名称一样,但数据都不一样;
解决方案:我想这一块还是比较好解决的,只要先统计整理公司所有的指标,然后把业务部门请上来,统一指标名称、指标解释、计算公式等,就不会产生同一个人,这个叫李老四,那个叫李二狗。
3.企业不同的时期业务系统处理方式上逐步优化产生的数据差异:
产生原因:企业在不同的发展时间,系统处理会有所差异,特别是二开比较多的公司
解决方案:A.后续规范的数据与前面不规范的数据,看是否可以通过相对应的关系,进行整理统一;
B.如果上述都不能处理的话,我想还是对前面的一些数据进行分开统计分析,否则两者不一样统计了来会误导业务人员
以前在一通讯行业工作的时候,原来在联通新用户(存费送机、购机送费、单开户)、老用户等等以前都是通过一个或几个字段的状态标志进行区别,后来业务发展,发现这样太复杂,后来做了一个政策层级的分类,统一规范。在处理前面数据的时候,对以前的数据进行修复处理,以保证与后续的数据统计方式一致。否则区别两个统计方式。
4.因为实际业务过程中无法规范而产生的数据质量问题:
问题举例:在一服装制造行业工作的时候,来统计产品的实际工时,因为是A产品完工、B产品新生产,在这一交接阶段,同时进行生产,无法正确的统计实际的生产工时,这是正常的实际情况。
解决方案:后与业务部门沟通,将当天的实际工时根据当天完工产品的理论工价来按比例分配,这样对统计分析虽然会有不真实的情况,但也是能相对真实。
所以碰到问题的时候,可以是否可以折中处理,只要不完全违背统计分析的原则,还要以考虑相应的处理方式。
说了这么多废话,希望可以在实际工作中引起一些思考。
星型模型和雪花型模型没有绝对的谁好谁不好之分,都是维度建模的一种设计思想,只是看在什么情形下使用。
星型模型的提出主要是方便业务人员理解业务模型,通过什么样的维度来看数据,星型模型更加直观,并且查询效率高。雪花型模型对于业务人员来说直观程度不够... 显示全部 »
星型模型和雪花型模型没有绝对的谁好谁不好之分,都是维度建模的一种设计思想,只是看在什么情形下使用。
星型模型的提出主要是方便业务人员理解业务模型,通过什么样的维度来看数据,星型模型更加直观,并且查询效率高。雪花型模型对于业务人员来说直观程度不够,并且在查询上效率略低。
但是我来举一个反例。
日-月-年,产品-产品小分类-中分类-大分类,国家-省份-地区 加一个事实度量。如果每一个日,月,年类似于这样的都是一张维度表的话,就意味着这张事实表的外键涉及到上述所有的维度,变成 10 个外键维度和一个事实度量。可以想象一下这样的事实就如同一条蜈蚣一样形成了一个蜈蚣事实表,维度外键过多,虽然是星型模型但是实则并不好。
退一步说,这张事实表只关联到日,产品,地区这三个维度,日-月-年 成为日期维度的一部分属性,这种情况最终三个维度+一个事实,这种星型模型要稍微好一点。
我继续基于这个星型模型再来说明,我假设在产品维度中(产品-小分类-中分类-大分类) 假设小分类,中分类,大分类各有5个非重复的值,但是却有10W个产品。也就意味着在产品维度中,小分类-中分类-大分类差不多要重复10W次。 也就意味中如果要统计分类的量需要从这10W条里面做去重统计操作,这种做法我认为效率很低。
再次,如果小分类,中分类,大分类不仅仅是一个标签而且还包含着标签描述信息和其它的属性,可想而知在星型模型下的处理方式就只能扩展同样重复的字段,这种重复率随着需要补充描述的属性越多变得越高。反之,如果再把这些单个的小分类,中分类拉出去形成维度和事实度量值构成一个星型模型,就又回到我刚才说的蜈蚣表了。
所以,没有最好的设计,只有最合适的选择,我们就从上面的几个设计推演就能考虑很多星型模型的弊端,在很多时候不一定就是最好的。
关于第二个问题可以看看我的这篇文章 - http://www.flybi.net/blog/biwork/1084 微软BI 之SSAS 系列 - 维度的优化、灌木丛属性关系、以及自然层次结构与非自然层次结构的概念
2017.1.1 - 2016.1.1
2017.1.1 - 2016.1.1
如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查询语言是类似mysql的语法。
迁移的优先级建议先搬迁底层原始数据、然后建立ETL清洗规则,最后... 显示全部 »
如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查询语言是类似mysql的语法。
迁移的优先级建议先搬迁底层原始数据、然后建立ETL清洗规则,最后搬DW数据。
在搬迁底层数据时建议你hive原始表与mysql的原始表保持结构一致。
设计要考虑的部分
1。根据分析主题确认适合的粒度。
2。考虑增量获取数据,即 增加时间戳。
3。不要包... 显示全部 »
设计要考虑的部分
1。根据分析主题确认适合的粒度。
2。考虑增量获取数据,即 增加时间戳。
3。不要包含 描述性的信息,也 不要包含除 事实表与维表中对应的关联字段 之外的数据。
不过吧,如果你搞不准,干脆分别建一个维度、一个度量,根据不同的场景用不同的
不过吧,如果你搞不准,干脆分别建一个维度、一个度量,根据不同的场景用不同的
40370
40370
一般是不需要合并的,只需要简单的在 row上,再加一个计算量值
一般是不需要合并的,只需要简单的在 row上,再加一个计算量值
就是Foreach循环的时候,每一次循环,都可以获取当前导入的数据量即行数,存到一个变量里;
然后再将这个变量和另一个汇总变量相加,存到汇总变量里,就可以了,截图看下
首先是这2个变量
ex... 显示全部 »
就是Foreach循环的时候,每一次循环,都可以获取当前导入的数据量即行数,存到一个变量里;
然后再将这个变量和另一个汇总变量相加,存到汇总变量里,就可以了,截图看下
首先是这2个变量
excel_row_count:记录每一次循环加载的行数
excel_total_count:记录总行数
45819
然后,看下我这个例子
这个read_excle:就是循环读取excel了,将数据插入到数据库
total_count:就是计算总行数,
45820
注意这个excel_total_sql:我是使用SQL来计算了个和 select excel_row_count+excel_total_count
45821
最后将结果集返回
45822
最后测试结果是可以的
45814
在变量映射中,我们可以获取到变量
45815
45814
在变量映射中,我们可以获取到变量
45815
用个函数ifnull就可以啦 ,见上图,除非是你的模型建的不对
用个函数ifnull就可以啦 ,见上图,除非是你的模型建的不对
袁某某 回答了问题 • 2018-03-21 14:17 • 1 个回复
在ODI接口中运行步骤都正常,但在接口运行日志里面报 :"会话已成功完成, 但错误表中报告有错误" , 目标表的信息没有更新,错误信息以附件给出,求大家指点
如何基于大数据Hadoop hive来做数据仓库的设计
请问我这样理解BI过程是否正确
Friday BI Fly | 2016年11月4日晚8点半微信直播交流游戏行业数据仓库存储模型第38场 图文版记录
天善智能 发表了文章 • 2016-11-07 10:41
数据仓库,ETL方面要不要考些什么证书什么
数据仓库日期维度表 Oracle,DB2,Sqlserver
攻城的狮子 发表了文章 • 2016-08-21 19:23
如何发现用电量异常单位?
关于公司搭建一个数据仓库的疑问
生产库和数据仓库中间还需要再加一层数据库吗,必要性有多大呢?
数据分析部门与数据仓库部门之间的职责划分应该是怎样?
关于数据仓库模型的选取和大家进行一个讨论
数据仓库中建立索引越多越好?
请问哪位大侠有数据仓库整体项目评估工时的文档可以参考一下吗? 非常感谢
关于OLTP和OLAP的疑问
各位前辈,小弟想参与BI的项目
oracle中存储过程刷新物化视图
谁有建筑施工企业BI项目应用的成功案例啊?
ODI-1228: Caused By: java.sql.SQLRecoverableException: Closed Connection
关于SSIS Checkpoint设置问题
在本地连接数据库执行TRUNCATE 表的时候,显示执行受阻是什么原因?
请教大家个数仓的问题,数仓里的财务主题,报表口径的合并是放在ods->dw呢还是dw->集市的层间转换中呢?
MDX 取维度范围的度量值
MDX查询实现between时间区间
SQL Server Reporting Server 新建数据源出错
ETL 过程中 没有编码的表入库 怎么加上编码 科学的方式如何
BIEE11g无法启动,提示BEA-101020错误
biee 12c如何后台单独重启邮件代理服务
kettle自动化,文件与数据库对接怎么操作
10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用
ETL批量调度-Taskctl 发表了文章 • 2020-11-24 10:11
ETL基础知识有哪些?3分钟让你轻松搞定
ETL批量调度-Taskctl 发表了文章 • 2020-08-03 16:07
元数据是什么?举例告诉你哪种方式更适合元数据的录入
ETL批量调度-Taskctl 发表了文章 • 2020-07-28 17:12
大数据与批量调度的紧密关系
ETL批量调度-Taskctl 发表了文章 • 2020-07-21 15:26
新手一看就秒懂的数据挖掘的10大算法
ETL批量调度-Taskctl 发表了文章 • 2020-07-20 14:39
MySQL Explain 详解(优化MySQL性能第一步)
ETL批量调度-Taskctl 发表了文章 • 2020-07-17 16:00
【开源】企业10万级调度软件 taskctl 6.0 永久免费授权使用
ETL批量调度-Taskctl 发表了文章 • 2020-07-14 15:35
中美两国10万级作业调度工具 "TaskCtl" Vs "Control-M" 如何选用
ETL批量调度-Taskctl 发表了文章 • 2020-07-09 09:54
数据调度平台etl系统二大种类及其实现方法与流程
ETL批量调度-Taskctl 发表了文章 • 2020-07-06 15:30
开源数据调度平台taskctl免费分享领取
ETL批量调度-Taskctl 发表了文章 • 2020-07-03 18:00
【搞事情】10万级商用etl作业调度工具taskctl免费开源了
ETL批量调度-Taskctl 发表了文章 • 2020-06-29 11:33
ETL调度系统及常见工具对比:azkaban、oozie、taskctl
ETL批量调度-Taskctl 发表了文章 • 2020-06-28 15:41
数据仓库跑批提速方案
润乾软件 发表了文章 • 2019-03-25 10:38
给学生朋友们一个福利——阿里校招直通通道
陈丹奕 发表了文章 • 2019-03-14 11:24
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。其特征在于面向主题、集成性、稳定性和时变性