0
推荐
1847
阅读

【老贝伏枥】数仓建模那些事

 互联网行业的数仓建设基本上借鉴传统行业的IBM/TD方法论,只是建模方法在原有的基础上增加了Valut和Anchor。数仓的方法论总结如下: 1.数据仓库模型设计  按模型层次和建模顺序划分为:业务模型、领域模型、逻辑模型和物理模型。  1.1.业务建模划分整个单位的业务,一般按照业务部门的划分,进行各...

发表了文章 • 2020-04-12 12:07 • 0 条评论

0
推荐
1438
阅读

数据挖掘常用模型--分类与预测

挖掘建模根据挖掘目标和数据形式可建立:分类与预测、聚类分析、关联规则、时序模式、偏差检测等模型。分类与预测分类预测分类标号(离散属性),是构造一个分类模型,输入样本属性值,输出对应类别,将每个样本映射到预先定义好的类别。分类模型,建立在已有类标记的数据集上,因此,属于“有监督学习”预测建立连续值函...

发表了文章 • 2019-03-22 11:41 • 0 条评论

1
推荐
1445
阅读

【贝克汉姆】2018年度总结和规划

2018年总结1、最大的失误:进了一家比较坑的公司,但是也有收获,而且很快走出来了。2、最大的改变:从传统行业转型到互联网行业。3、最大的挑战:在中国经济紧张的趋势下,逆势而行,给家人换置了套四的新房。4、最大的收获:正式进入互联网大数据行业,虽然比较辛苦,但是很充实,每天都有挑战的工作也是极好的。5、最...

发表了文章 • 2019-01-31 17:46 • 0 条评论

0
推荐
1667
阅读

【老贝伏枥】 数据库窗口函数-windows function

几乎常用的数据库都具备了SQL常用的窗口函数,比如比较常见的row_number() over()。尤其在hive数据库,灵活使用窗口函数能快速实现代码逻辑并提高执行效率。下面就依次分析几个常用函数的用途。1、排序:ROW_NUMBER() RANK() DENSE_RANK()2、取第一个值FIRST_VALUE() LAST_VALUE()3、连续值LAG() LEAD()4、关键字ROWS ...

发表了文章 • 2018-09-30 22:02 • 0 条评论

0
推荐
1924
阅读

【老贝伏枥】Hash散列索引

Hash Index  Hash索引是根据HASH算法来构建的索引,本身具有特殊性:优点  精确查找非常快,如=、<>和in,检索效率非常高,可以一次定位。  B-Tree索引需要从根节点到枝节点,因此Hash 索引的查询效率要远高于 B-Tree 索引缺点不适合模糊查询和范围查询,如like,>,<,between and等。由于 ...

发表了文章 • 2018-07-12 21:15 • 0 条评论

1
推荐
1857
阅读

【老贝伏枥】6.Bitmap index

6、Bitmap Index(位图索引)  组织形式与Btree索引相同,也是一棵平衡树。不同点是叶子节点里存放索引条目的方式不同。  用户表T_User_Info里所有的记录在列UserType上只具有三个值:01、02和03。在列UserType上创建位图索引以后,则叶子节点的内容如上图所示。可以看到位图索引只有三个索引条目,也就是每个Us...

发表了文章 • 2018-07-11 11:50 • 0 条评论

0
推荐
1792
阅读

【老贝伏枥】Index解析

1、索引的种类  常用的index按物理属性有B-Tree Index(常规树)、B Tree(二叉树)、B+Tree、Bitmap Index(位图)、Reverse Index(反向)、Hash Index、分区和非分区Index。按使用方法上划分有 唯一和非唯一索引、组合索引、函数索引、聚簇和非聚簇索引。  了解索引的原理,对SQL查询优化有着及其重要的作用,现在...

发表了文章 • 2018-07-10 16:51 • 0 条评论

0
推荐
1537
阅读

【老贝伏枥】Hive表的存储格式对比分析

  Hive支持Hadoop中使用的几种熟悉的文件格式,在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。1、Hive的建表语法CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name --创建临时表、外部表、内部表。内部表的存储在指定目录HDFS://user/hive/ware...

发表了文章 • 2018-07-06 15:52 • 0 条评论

1
推荐
1411
阅读

【老贝伏枥】Hive的系列化和反系列化

  对象的序列化主要有两种用途:对象的持久化,即把对象转换成字节序列后保存到文件中。  hive的序列化的作用是可以方便的将数据加载到表中而不需要对数据进行转换,这样在处理海量数据时可以节省大量的时间。序列化序列化是hive对象转换为字节序列的过程;反序列化是字节序列恢复为Hive对象的过程。SerDe说明...

发表了文章 • 2018-07-05 18:40 • 0 条评论

2
推荐
2578
阅读

【老贝伏枥】HIVE的索引、分区和分桶

1、索引Hive索引目的是提高Hive表指定列的查询速度Hive支持索引,但是Hive的索引与关系型数据库中的索引并不同,如 Hive不支持主键或者外键没有索引时Hive会加载整张表或分区,然后处理所有的rows,有索引时只会加载和处理文件的一部分增加索引在提升查询速度时,也会消耗额外资源去创建索引表和需要更多的磁盘空间存储...

发表了文章 • 2018-07-04 09:54 • 0 条评论

1
推荐
1940
阅读

Hive中order by,sort by, distribute by, cluster by

面试中问到了这些问题,今天特意全方位的总结一下。另外,数据思维比技术更重要。1.Order by    Hive中的order by跟传统的sql语言中的order by作用一样,会对查询的结果做一次全局排序。所以只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会...

发表了文章 • 2018-06-26 16:59 • 2 条评论

0
推荐
1895
阅读

【老贝伏枥】分布式数据库的数据倾斜问题

1、问题描述  在计算数据的时候,数据的分散度不够,不均匀,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。 常见场景有:用Hive算数据的时候reduce阶段卡在99.99%用Spark Streaming做实时算法时候,一直会有executor出现OOM的错误,但其余的exec...

发表了文章 • 2018-06-22 17:58 • 0 条评论

2
推荐
3566
阅读

【老贝伏枥】Lambda架构 vs Kappa架构

1.Lambda 架构   Lambda 设计目的在于提供一个能满足大数据系统关键特性的架构,包括高容错、低延迟、可扩展等。其整合离线计算与实时计算,融合不可变性、读写分离和复杂性隔离等原则,可集成Hadoop, Kafka, Spark,Storm等各类大数据组件。   架构可分解为三层Layer,即Batch Layer, Real-Time(Sp...

发表了文章 • 2018-06-19 11:25 • 0 条评论

1
推荐
1428
阅读

【老贝伏枥】初识Redis

一、为什么使用Redis解决应用服务器的cpu和内存压力减少频繁I/O的读操作,减轻I/O的压力解决关系型数据库的扩展性不强,难以改变表结构二、优点:nosql数据库没有关联关系,数据结构简单,拓展表比较容易nosql读取速度快,对较大数据处理快三、适用场景:对数据有非常高并发的读写海量数据的读写对扩展性要求非常高的数...

发表了文章 • 2018-06-12 10:07 • 0 条评论

1
推荐
2156
阅读

【老贝伏枥】-2.kafka单机实践-实时WordCount

2.3、实现一个实时词频统计  Kafka Streams是用于构建关键任务实时应用程序和微服务的客户端库,输入或输出数据存储在Kafka集群中。它结合了在客户端编写和部署标准Java和Scala应用程序的简单性,以及Kafka的服务器端集群技术的优点,使这些应用程序具有高度可伸缩性、弹性、容错、分布式和更多的优点。官方给的示...

发表了文章 • 2018-05-19 16:35 • 0 条评论