数据仓库

投票

回答

2997

浏览

各位前辈，小弟想参与BI的项目

BIEE 机器学习数据分析数据挖掘数据仓库人工智能大数据 ETL 商业智能

yaogunjita 发起了问题 • 2017-02-17 10:30

推荐

1987

浏览

10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用

软件下载：关注公众号：【Taskctl】关键字回复 "领取" 或 "软件" 即可获得认识 Taskctl-webTASKCTL 遵循软件产品标准化的原则，以“专业、专注”为设计理念，结合ETL 调度领域自身的...

ETL批量调度-Taskctl 发表了文章 • 2020-11-24 10:11

推荐

1488

浏览

ETL基础知识有哪些？3分钟让你轻松搞定

ETL发展的历史背景随着企业的发展，各业务线、产品线、部门都会承建各种信息化系统方便开展自己的业务。随着信息化建设的不断深入，由于业务系统之间各自为政、相互独立造成的数据孤岛”现象尤为普遍，业务不集成...

ETL批量调度-Taskctl 发表了文章 • 2020-08-03 16:07

推荐

1486

浏览

元数据是什么？举例告诉你哪种方式更适合元数据的录入

元数据，一个简单的定义是描述数据的数据。在企业中，无论哪里有数据，都有相应的元数据。只有存在完整而准确的元数据，我们才能更好地理解数据并充分利用数据的价值。为了让大家更好地了解什么是元数据，TaskCtl...

ETL批量调度-Taskctl 发表了文章 • 2020-07-28 17:12

推荐

1161

浏览

大数据与批量调度的紧密关系

当大数据在手机端花枝招展地跳跃时，你很自豪地说，我知道它是怎么来的，它是从网络另一端来的。可当碰到一个刨根问底的家伙，他又问，那网络另一端的数据又是怎么来的，你是否一脸蒙逼？不，你可能说，作为一枚I...

ETL批量调度-Taskctl 发表了文章 • 2020-07-21 15:26

推荐

1204

浏览

新手一看就秒懂的数据挖掘的10大算法

一个优秀的数据分析师，除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外，还需要掌握一些数据挖掘的思想，帮助我们挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之...

ETL批量调度-Taskctl 发表了文章 • 2020-07-20 14:39

推荐

1347

浏览

MySQL Explain 详解（优化MySQL性能第一步）

MySQL Explain 详解使用EXPLAIN关键字可以模拟优化器执行SQL查询语句，从而知道MySQL是如何处理你的SQL语句。分析你的查询预付或表结构的性能瓶颈。查询结果返回字段分析1、id列select查询的序列号，包含一组数字...

ETL批量调度-Taskctl 发表了文章 • 2020-07-17 16:00

推荐

1933

浏览

【开源】企业10万级调度软件 taskctl 6.0 永久免费授权使用

关注公众号 "taskctl" 关键字回复 "领取" 即可获得永久免费授权TASKCTL作为敏捷批量调度的开拓者，产品设计从一开始就专门为整洁的体验而设计，并提供丰富、直观的用户界面，以简化常见的作业调度执行编排流程。T...

ETL批量调度-Taskctl 发表了文章 • 2020-07-14 15:35

推荐

1790

浏览

中美两国10万级作业调度工具 "TaskCtl" Vs "Control-M" 如何选用

前言：美方：Control-M ( www.bmc.com)中方：TASKCTL ( www.taskctl.com )ETL调度工具中美PK ( TASKCTL VS Control-M)Control-M图片源自网络TaskCtl图片源自网络而国内，在众多的软件中选择TASKCTL，我似乎没有任...

ETL批量调度-Taskctl 发表了文章 • 2020-07-09 09:54

推荐

2132

浏览

数据调度平台etl系统二大种类及其实现方法与流程

什么是调度系统调度系统，更确切地说，作业调度系统（Job Scheduler）或者说工作流调度系统（workflow Scheduler）是任何一个稍微有点规模，不是简单玩玩的大数据开发平台都必不可少的重要组成部分。除了Crontab...

ETL批量调度-Taskctl 发表了文章 • 2020-07-06 15:30

推荐

1849

浏览

开源数据调度平台taskctl免费分享领取

产品简介taskctl是一款由成都塔斯克信息技术公司历经10年研发的etl作业集群调度工具，该产品概念新颖，体系完整、功能全面、使用简单、操作流畅，它不仅有完整的调度核心、灵活的扩展，同时具备完整的应用体系。...

ETL批量调度-Taskctl 发表了文章 • 2020-07-03 18:00

推荐

1896

浏览

【搞事情】10万级商用etl作业调度工具taskctl免费开源了

工具背景taskctl是一款由成都塔斯克信息技术公司历尽10年研发的etl作业集群调度工具，该产品概念新颖，体系完整、功能全面、使用简单、操作流畅，它不仅有完整的调度核心、灵活的扩展，同时具备完整的应用体系。...

ETL批量调度-Taskctl 发表了文章 • 2020-06-29 11:33

推荐

1919

浏览

ETL调度系统及常见工具对比：azkaban、oozie、taskctl

最近遇到了很多正在研究ETL及其工具的伙伴向我们抱怨：同样都在用 Kettle ，起点明明没差异，但为什么别人ETL做的那么快那么好，自己却不断掉坑？其实，类似于像 Kettle 这样开源的工具，已经覆盖了大部分日常工...

ETL批量调度-Taskctl 发表了文章 • 2020-06-28 15:41

推荐

1509

浏览

高性能数据仓库

【摘要】作为高性能计算数据仓库，SPL Server 可以在离线跑批、在线查询、多维分析和内存计算 4 个方面提供高效的计算输出，帮助用户解决由于性能带来的这些问题：1. 半夜跑批跑不完，出错了来不及再来；2. 看个...

润乾软件发表了文章 • 2019-06-03 17:06

投票

回答

2013

浏览

oracle中存储过程刷新物化视图

贡献

Oracle 数据仓库

seng 回复了问题 • 2019-05-16 09:05

农夫回答了问题 • 2015-10-27 13:05 • 5 个回复不感兴趣

如何保证数据质量？

数据质量这块深有体味，曾经开发实施ERP多年，接过很多ERP业务需求并深入了解过业务，BI报表的需求等，有关数据质量分几种：
1.系统BUG问题：
产生原因：A.开发测试验收流程不规范，遵循开发加自测=》测试=》业务需求部门验收的流程操作，减少这块引起的数据... 显示全部 »

数据质量这块深有体味，曾经开发实施ERP多年，接过很多ERP业务需求并深入了解过业务，BI报表的需求等，有关数据质量分几种：
1.系统BUG问题：
产生原因：A.开发测试验收流程不规范，遵循开发加自测=》测试=》业务需求部门验收的流程操作，减少这块引起的数据质量问题。
B.开发过程中，可能版本控制的问题，对公用的过程，我修改后另外的开发人员进行覆盖等等问题
解决方案：A.规范开发测试及版本控制流程，没有任何捷径所走，上面几个朋友都有提到，对已发生的问题开发人员进行修改；
B.曾经使用过一套平台化开发的ERP系统，主要原因是开发人员的进进出去，修修改改，数据质量经常不准确，后来通过3个月的时间，把所有单据明细与库存明细帐、销售明细账、期间表、即时库存、成本表等等所有的过账逻辑在晚上进行修复重算，再更新重算后正确的数据，一举解决了困扰公司几年老大难的问题。但这工作需要对业务、数据结构、ERP业务流程、开发能力都比较强的人员来操作，才能保证重算的准确。
2.分析指标统一口径问题：
产生原因：在一公司做BI系统的时候，指标口径不统一，比如像成本有：门店成本、销售成本、加成成本等等好几个，每次开会的时候，采购部、销售中心、财务中心、市场部等等拿出来的数据可能名称一样，但数据都不一样；
解决方案：我想这一块还是比较好解决的，只要先统计整理公司所有的指标，然后把业务部门请上来，统一指标名称、指标解释、计算公式等，就不会产生同一个人，这个叫李老四，那个叫李二狗。
3.企业不同的时期业务系统处理方式上逐步优化产生的数据差异：
产生原因：企业在不同的发展时间，系统处理会有所差异，特别是二开比较多的公司
解决方案：A.后续规范的数据与前面不规范的数据，看是否可以通过相对应的关系，进行整理统一；
B.如果上述都不能处理的话，我想还是对前面的一些数据进行分开统计分析，否则两者不一样统计了来会误导业务人员
以前在一通讯行业工作的时候，原来在联通新用户（存费送机、购机送费、单开户）、老用户等等以前都是通过一个或几个字段的状态标志进行区别，后来业务发展，发现这样太复杂，后来做了一个政策层级的分类，统一规范。在处理前面数据的时候，对以前的数据进行修复处理，以保证与后续的数据统计方式一致。否则区别两个统计方式。
4.因为实际业务过程中无法规范而产生的数据质量问题：
问题举例：在一服装制造行业工作的时候，来统计产品的实际工时，因为是A产品完工、B产品新生产，在这一交接阶段，同时进行生产，无法正确的统计实际的生产工时，这是正常的实际情况。
解决方案：后与业务部门沟通，将当天的实际工时根据当天完工产品的理论工价来按比例分配，这样对统计分析虽然会有不真实的情况，但也是能相对真实。
所以碰到问题的时候，可以是否可以折中处理，只要不完全违背统计分析的原则，还要以考虑相应的处理方式。
说了这么多废话，希望可以在实际工作中引起一些思考。

BIWORK 回答了问题 • 2015-10-09 15:18 • 13 个回复不感兴趣

关于数据仓库模型的选取和大家进行一个讨论

个人理解：
星型模型和雪花型模型没有绝对的谁好谁不好之分，都是维度建模的一种设计思想，只是看在什么情形下使用。

星型模型的提出主要是方便业务人员理解业务模型，通过什么样的维度来看数据，星型模型更加直观，并且查询效率高。雪花型模型对于业务人员来说直观程度不够... 显示全部 »

个人理解：
星型模型和雪花型模型没有绝对的谁好谁不好之分，都是维度建模的一种设计思想，只是看在什么情形下使用。

星型模型的提出主要是方便业务人员理解业务模型，通过什么样的维度来看数据，星型模型更加直观，并且查询效率高。雪花型模型对于业务人员来说直观程度不够，并且在查询上效率略低。

但是我来举一个反例。
日-月-年，产品-产品小分类-中分类-大分类，国家-省份-地区加一个事实度量。如果每一个日，月，年类似于这样的都是一张维度表的话，就意味着这张事实表的外键涉及到上述所有的维度，变成 10 个外键维度和一个事实度量。可以想象一下这样的事实就如同一条蜈蚣一样形成了一个蜈蚣事实表，维度外键过多，虽然是星型模型但是实则并不好。

退一步说，这张事实表只关联到日，产品，地区这三个维度，日-月-年成为日期维度的一部分属性，这种情况最终三个维度+一个事实，这种星型模型要稍微好一点。

我继续基于这个星型模型再来说明，我假设在产品维度中（产品-小分类-中分类-大分类）假设小分类，中分类，大分类各有5个非重复的值，但是却有10W个产品。也就意味着在产品维度中，小分类-中分类-大分类差不多要重复10W次。也就意味中如果要统计分类的量需要从这10W条里面做去重统计操作，这种做法我认为效率很低。

再次，如果小分类，中分类，大分类不仅仅是一个标签而且还包含着标签描述信息和其它的属性，可想而知在星型模型下的处理方式就只能扩展同样重复的字段，这种重复率随着需要补充描述的属性越多变得越高。反之，如果再把这些单个的小分类，中分类拉出去形成维度和事实度量值构成一个星型模型，就又回到我刚才说的蜈蚣表了。

所以，没有最好的设计，只有最合适的选择，我们就从上面的几个设计推演就能考虑很多星型模型的弊端，在很多时候不一定就是最好的。

关于第二个问题可以看看我的这篇文章 - http://www.flybi.net/blog/biwork/1084 微软BI 之SSAS 系列 - 维度的优化、灌木丛属性关系、以及自然层次结构与非自然层次结构的概念