润乾软件 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1361

阅读

做基础软件要投入很多钱？

现在有个说法，国家对基础软硬件的投入太少，经常会说微软、Oracle、Intel这些巨头每年的研发费有多少多少，我们的投入连个零头都不到，当然做不出什么象样的东西了。看起来还真是，似乎还要再加大投入才行？我不懂芯片的事，不知道是不是需要花很多钱才能建出基本的实验生产环境，但软件的研发成本还是比较熟悉的。在我...

发表了文章 • 2018-05-02 11:31 • 0 条评论

0

推荐

1329

阅读

国产操作系统还能怎么做？

一家之言，开个脑洞。操作系统在市场上的关键点，并不在于进程管理、文件系统这些看起来很核心的东西，这些东西真地可以抄（借鉴一下没关系的）。操作系统要普及成功，关键在于上面开发技术的方便性，也就是开发工具的易用性以及API的丰富性。开发工具就是操作系统的用户界面，决定了用户体验；下层核心是为上层API服务...

发表了文章 • 2018-05-02 11:27 • 0 条评论

1

推荐

1255

阅读

国产数据库通通都没戏！

这标题摆明了就是招人骂，一下子把国内做数据库的同行们都得罪了，甚至连自己都没落下（我也算做数据库的，而且当然也是国产的）。这观点已经有N年了，而且也多次讲过。这次正好有个热点来蹭，就把它写出来。既然蹭热点嘛，那就不怕标题党了。不过，还是要先澄清一下，这里说的“没戏”，并不是说国内厂商做不出一个可用的...

发表了文章 • 2018-05-02 11:20 • 0 条评论

0

推荐

1677

阅读

【数据蒋堂】第45期：大数据计算语法的SQL化

回归SQL是当前大数据计算语法的一个发展倾向。在Hadoop体系中，现在已经很少有人会自己从头来写MapReduce代码了，PIG Latin也处于被淘汰的边缘，而HIve却始终坚挺；即使是Spark上，也在更多地使用Spark SQL，而Scala反而少很多。其它一些新的大数据计算体系一般也将SQL作为首选的计算语法，经过几年时间的混战之后，现在...

发表了文章 • 2018-04-27 13:42 • 0 条评论

0

推荐

1490

阅读

【数据蒋堂】第44期：谈谈临时性计算

临时性计算，顾名思义，是指临时发生的一些计算需求。这种计算在日常数据处理中很常见，我们举一些例子：应对业务部门的取数需求：比如销售部门想获得进行了某项促销活动前后的销售情况变化信息；数据挖掘算法前的清理准备：将来自各个业务系统的数据（甚至一些企业外部的数据）整理成规则一致的二维表，这些动作常常比...

发表了文章 • 2018-04-25 10:52 • 0 条评论

1

推荐

1737

阅读

文本数据的分分合合

对于数据分析工作来说，可能最希望的是面对规整、一致的数据，例如定义清晰明确的关系数据库，或者可以自由钻取、切片的OLAP 数据仓库。但不幸的是，很多时候，我们不得不面对来自方方面面的零散数据，亲自操刀煎炒烹炸，这其中，文本数据的合并、分拆就有点像基本的刀工，既要做的漂亮，但又不能用太多的时间。这时候一...

发表了文章 • 2018-04-23 13:09 • 0 条评论

0

推荐

1404

阅读

【数据蒋堂】第43期：报表开发的现状

报表开发，看起来只是数据呈现环节的事务，并不起眼，但仔细想想，它涉及的工作范围却非常广。如果把查询和交互分析也认为是报表事务的话（呈现形式本来也是报表），那么可以说，绝大多数ETL都是在为报表准备数据而存在的；而且，在数据库中的表，有相当多（经常超过半数）也不是用来存放原始数据，而是为了报表服务的。...

发表了文章 • 2018-04-23 09:40 • 0 条评论

0

推荐

1773

阅读

MySQL,Hadoop闭源了咋办？

突然滴，MySQL、Hadoop等开源软件有可能被“闭源”的话题火起来了。听说，活跃在我国境内众多著名商用数据库数据仓库都是从这些开源代码改出来的，这要是被鬼子釜底抽薪，那可如何是好？一时间大家都纷纷表示很揪心，心痛得无法呼吸。表担心，有我润乾软件在！润乾，一家国内的基础软件厂商，一个普普通通的软件公司，很小...

发表了文章 • 2018-04-21 10:19 • 0 条评论

1

推荐

1664

阅读

【数据蒋堂】第42期：RDB与NoSQL的访问性能

我们继续从软件角度上看外存数据源的性能，来考察数据库的性能特点，在这篇文章中，我们只关心数据的访问性能，而不涉及计算性能。关系数据库关系数据库也是很常见的数据存储方式。本质上讲，数据库其实也是一种特殊的二进制文件，但它的性能会弱于直接写在操作系统下的文件，主要原因在于数据库通常都要提供数据更新的...

发表了文章 • 2018-04-10 15:26 • 0 条评论

0

推荐

1584

阅读

敏捷BI的那些麻烦事（一）

敏捷BI这个词这两年比较流行，其实深究起来就是自主报表，是希望业务人员自己能完成数据分析和呈现。业务人员经常面对临时性的数据分析需求，比如某区域的电商想搞个促销活动，经常需要一批有针对性的用户数据来分析一下，传统手段一般提交给技术部门去实现，这样显然周期长、效率低，有时获得结果时已经失去促销窗口期...

发表了文章 • 2018-04-09 11:33 • 0 条评论

0

推荐

1299

阅读

【数据蒋堂】第41期：文件的性能分析

我们以前讲过硬盘的性能特征，主要是针对硬件层面进行分析的，现在我们来考虑软件层面的差异。理论上讲，软件可以穿过操作系统直接进行磁盘扇区的访问，但实在太过于麻烦而几乎不会实践机会，这里就不考虑了，我们只讨论操作系统下的存储形式，而文件就是其中重要的存储形式。文件一般有两种：文本文件和二进制文件，我...

发表了文章 • 2018-04-02 17:44 • 0 条评论

1

推荐

1470

阅读

差异数据的对比和整理

在我们日常的工作中，常常会遇到很多结构相同，但来源不同的数据。有时，这些数据之间完全独立，互不重叠，例如各个分公司从自己系统中导出的销售数据；但有时，这些数据之间又会有大量的重叠，例如常见的一个完整业务流程中涉及的各个系统、各个环节，都可能根据各自收到的单据进行录入。这时，如何对这些重叠数据进行...

发表了文章 • 2018-03-30 10:16 • 0 条评论

2

推荐

1666

阅读

报表工具的“后”路

报表工具很可能是企业级通用软件领域中仅有的国产软件品质远远超过国外同行的产品了。以润乾为先行者的国内厂商，在十多年的竞争中靠实力击败了国外产品。除了少量开源产品因价格优势还有较多用户外，其它国外产品主要就是些多年前的老用户了。中国报表需求确实更复杂，无论格式和计算都繁琐得多，传统报表模型难以处理...

发表了文章 • 2018-03-15 13:54 • 0 条评论

2

推荐

1459

阅读

【数据蒋堂】第40期：倍增分段技术

区块分段方案能够满足我们设定的4个目标。不过，除了处理区块标记的麻烦外，这个办法对于列存也不是非常适合。数据按列分别存储后，分段时必须保证各列同步，即各列的分段点对应的是同一条记录的列，否则就会出错数据错位。而各个列的宽度是不同的，同样大小的区块在存储不同列的值时，能装下的个数是不同的，继续按区块...

发表了文章 • 2018-02-02 11:16 • 0 条评论

0

推荐

1630

阅读

【数据蒋堂】第39期：数据分段讨论

现代计算机一般都有多CPU核，而日益广泛应用的固态硬盘也有较强的并发能力，这些硬件资源都为并行计算提供了有力的保证。不过，要实现并行计算还需要有较好的数据分段技术，也就是能方便地把待计算的数据拆分成若干部分，让每个线程（或进程，这里以多线程为例讨论，多进程情况是类似的）分别处理。设计数据分段方...

发表了文章 • 2018-02-02 11:15 • 0 条评论