胖子哥的博客专栏

博学笃志,切问近思,此八字,是收放心的工夫。 神闲气静,智深勇沉,此八字,是干大事的本领。

0
推荐
1391
阅读

大数据工具篇(三)-Hive与MySQL整合完整教程

一、引言  Hive元数据存储可以放到RDBMS数据库中,本文以Hive与MySQL数据库的整合为目标,详细说明Hive与MySQL的整合方法。二、安装驱动  MySQL最新的Java驱动版本为:mysql-connector-java-5.1.28-bin.jar,下载后拷贝到:Hive/Lib目录。三、安装MySQL  3.1 版本  RHEL5+mysql-5.5.35-1.i386.rpm  3.2 顺序 ...

发表了文章 • 2016-03-22 19:53 • 0 条评论

0
推荐
1726
阅读

大数据工具篇(一)-yiflume1.4-安装部署指南

一、引言  flume-ng是一个分布式、高可靠和高效的日志收集系统,flume-ng是flume的新版本的意思,其中“ng”意为new generate(新一代),目前来说,flume-ng 1.4是最新的版本。flume-ng与flume相比,发生了很大的变化,因为之前一直在flume0.9的版本,一直没有升级到flume-ng,最近因为项目需要,做了一次升级,发现了一...

发表了文章 • 2016-03-22 19:50 • 0 条评论

0
推荐
4453
阅读

数据仓库专题(20)-案例篇:电商领域数据主题域模型设计v0.2(改进意见征集中)

一、电商分类(平台+自营+复合) (1)平台型电商:淘宝+天猫+百度Mall等; (2)自营型电商:        2.1 综合型:京东(早期)+当当(早期);        2.2 垂直型:好像这种类型越来越少了;  (3)复合型电商(平台+自营):京东+当当+...

发表了文章 • 2016-03-22 19:40 • 0 条评论

0
推荐
1842
阅读

数据仓库专题(19)-数据建模语言Information Engineering - IE模型(转载)

Information Engineering采用Crow's Foot表示法(也有叫做James Martin表示法的),中文翻译中对使用了Crow's Foot表示法的模型也有笼统的称做鸭掌模型的(关联关系的关联基数中采用到了一个鸭掌形的三叉线来表示)。他由Clive Finkelstein发明,与James Martin一起推广,后来两人各自做了些修正形成两份版本前面示例模...

发表了文章 • 2016-03-22 19:38 • 0 条评论

0
推荐
1775
阅读

数据仓库专题(18)-数据建模语言IDEF(转载)

1、引言 IDEF的含义是集成计算机辅助制造(Integrated  Computer-AidedManufacturing,ICAM)DEFinition。最初的IDEF方法是在美国空军ICAM项目建立的,最初开 发3种方法:功能建模(IDEF0)、信息建模(IDEF1)、动态建模(IDEF2),后来,随着信息系统的相继开发,又开发出了下列IDEF族方法: 数据建模(IDEF1X)、过程...

发表了文章 • 2016-03-22 19:31 • 1 条评论

0
推荐
1960
阅读

数据仓库专题(16)-分布式数据仓库实践指南-目录篇

前言: 准备系统化整理一套分布式数据仓库建模实践指南,先把目录列出来吧,算是给自己设计一个目标吧。第一部分 基础篇 第一章 数据仓库概念与定义1.1 数据管理体系1.2 数据仓库概念1.3 数据仓库职责 第二章 数据仓库体系结构2.1 Inmon CIF2.2 Kimball 2.3 对比与分析2.4 分布式数据仓库架构体系&n...

发表了文章 • 2016-03-22 19:26 • 0 条评论

0
推荐
1690
阅读

数据仓库专题(15)-数据仓库建设基本原则-实践篇(求补充)

数据仓库建设原则第一条:一切为就绪数据让路;数据仓库建设原则第二条:业务分析和数据分析深浅有度;数据仓库建设原则第三条:数据价值挖掘切莫求之过急,水到渠才能成;数据仓库建设原则第四条:团队目标必须一致,可以有异议,但是不可有异声;数据仓库建设原则第五条:资深行业专家团队系统建设采用自顶向下,其他...

发表了文章 • 2016-03-22 19:24 • 0 条评论

0
推荐
1399
阅读

数据仓库专题(14)-数据仓库建设指导原则:一切以就绪数据为主

一、前言      数据仓库建设往往伴随业务逻辑梳理、数据逻辑梳理二、说明 

发表了文章 • 2016-03-22 19:24 • 0 条评论

0
推荐
1603
阅读

数据仓库专题(13)-星型模型中事实表作为维表使用面临的问题和解决方法

一、概述      星型模型设计,经常遇到的问题便是,此业务过程之维度,恰恰是另外一个业务过程的事实。最简单的例子如,产品销售业务活动,以订单为事实,以客户、产品、销售人员等为维度;而产品维度,在产品生产业务过程中则作为事实存在。那么问题来了,模型设计时,在逻辑模型层次如何表征...

发表了文章 • 2016-03-22 19:21 • 0 条评论

0
推荐
1459
阅读

数据仓库专题(12)-数据分类模型

 一、数据分类模型 二、数据分类定义元数据(metadata,Reference DataMaster DataEnterprise structure Data,Transaction Activity Data)引用数据(),主数据(),企业结构数据()交易活动数据()交易审计数据(Transaction Audit Data)元数据:数据的数据,平时我们设计表时,大部分属性字段就是元数据...

发表了文章 • 2016-03-22 19:15 • 0 条评论

0
推荐
1662
阅读

数据仓库专题(11)-可以作为维度表使用的事实表

KDT#13 可以作为维度表使用的事实表事实表从粒度的角度分为三种,分别是交易粒度事实表、周期快照事实表和累计快照事实表。交易粒度事实表能提供某个确切时刻的描述信息。以银行帐户中保存的客户信息为例来说,代理机构会周期的更新客户的名称、地址、电话号码、客户分类、信用等级、风险等级及其他描述性信息。建立的交...

发表了文章 • 2016-03-22 19:13 • 0 条评论

0
推荐
1834
阅读

数据仓库专题(10)-文本事实和杂项维度

一、杂项维度在维度建模的数据仓库中,有一种维度叫Junk Dimension,中文一般翻译为“杂项维度”。杂项维度是由操作系统中的指示符或者标志字段组合而成,一般不在一致性维度之列。在操作系统中,我们定义好各种维度后,通常还会剩下一些在小范围内取离散值的指示符或者标志字段。例如:支付类型字段,包括现金和信用卡两...

发表了文章 • 2016-03-22 19:11 • 0 条评论

0
推荐
1615
阅读

数据仓库专题(9)-缓慢变化维处理技术

一、案例描述  在一个零售业数据仓库中,事实表保存着各销售人员的销售记录,某天一个销售人员从北京分公司调到上海分公司了,那么如何来保存这个变化呢?也就是说销售人员维度要怎么恰当的处理这一变化。  先来回答一个问题,为什么要处理,或保存这一变化?如果我们要统计北京地区或上海地区的总销售情况的时候,...

发表了文章 • 2016-03-22 19:10 • 0 条评论

5
推荐
2571
阅读

R语言学习路线图-转帖

本文分为6个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经济学,时间序列分析,金融等。1.初级入门《An Introduction to R》,这是官方的入门小册子。其有中文版,由丁国徽翻译,译名为《R导论》。《R4Beginners》,这本小册子有中文版应该叫《R入门》。除此之外,还可以去读刘思喆的《153分钟学会R》。 这本...

发表了文章 • 2016-03-22 11:25 • 2 条评论

1
推荐
1751
阅读

R语言数据挖掘相关包总结-转帖

与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plot.hclust基于验证的方法: cluster.stats2、分类常...

发表了文章 • 2016-03-22 11:23 • 0 条评论