默认分类文章分类 Max.L - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

6

推荐

3772

阅读

用Python写一个自己的RFM模型

最近在搞网站数据化运营，过去一直用SPSS做用户价值细分，导入数据点点就完成了。然而，当面临个性化的需求时，这种定制化的工具就满足不了啦！鄙人不才，略懂Python，哈哈，那么接下来我们用numpy和pandas两个包来写一下自己的RFM模型。对于RFM的R、F、M分别是什么，同学们自行百度吧，我偷偷懒，直接给大家详细的讲解...

发表了文章 • 2018-09-12 14:31 • 1 条评论

7

推荐

4778

阅读

实现Hive查询操作HBase中的数据

今天主要给大家讲解一下，如何使用Hive来查询及操作HBase里面的数据，也就是实现二者的数据互通互导，相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文：《白话解说：SQL与NoSQL》https://ask.hellobi.com/blog/Matthew112/12341一、那么看完之后我们先来简单了解一下HBase如何存放数据及对应语法：HBase ...

发表了文章 • 2018-08-27 19:54 • 4 条评论

7

推荐

2413

阅读

大数据环境-快速安装使用

安装大数据环境的技术博文、甚至视频课在网上有太多太多啦。还是有很多小伙伴很头疼环境安装配置，怎么安装怎么配置，总有出错的地方，都其中最头疼的莫过于Linux系统的操作。认识一个做数据的朋友，他习惯于windows的桌面操作，鼠标点点点...Excel、SPSS、Navicat、SAS等等等...他最有意思的一句话就是：Linux用起来没...

发表了文章 • 2018-08-21 14:54 • 5 条评论

6

推荐

2939

阅读

三步构建Hive自己的dual

dual表的概念来自oracle，数据库建立时即与数据字典一起初始化，该表只有一个varchar2类型名为dummy的字段，表数据只有一行“X”，用来查询一些系统信息，如select sysdate from dual等。 Hive也可以建立自己的虚表-dual！1.首先创建一个空的txt，dual.txt，将X重定...

发表了文章 • 2018-07-20 14:19 • 1 条评论

5

推荐

1931

阅读

Hive分区技术

本周已经更新完成Hive分区的三个章节：技术详解，多重分区，动态分区在Hive Select查询中一般会扫描整个表的内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中我们关心的一部分数据，因此建表时引入了partition概念。分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对...

发表了文章 • 2018-07-20 13:57 • 0 条评论

5

推荐

2583

阅读

白话解说：SQL与NoSQL

本文用最简明的方式讲解一下RDBMS与NoSQL，以MySQL和HBase存储同一批数据作为对比，带你迅速了解NoSQL知识！

发表了文章 • 2018-06-26 11:26 • 0 条评论

6

推荐

2266

阅读

Hive实战技能第一部

课程终于上线了，自己的第一部课，算是对自己这几年职业生涯的一次总结。接触Hive比较久，一个版本一个版本的跟到现在，从最初连NOT IN 和 NOT LIKE都不支持，到现在能够实现物化视图，这也见证了开源的力量。回想自己的当初从校园到实习，接触SQL Server、Oracle，踏入职场接触MySQL、Hadoop、Spark，越来越着迷。SQL是...

发表了文章 • 2018-06-20 13:21 • 2 条评论

3

推荐

2992

阅读

HPL/SQL (Hive Hybrid Procedural SQL On Hadoop) --- 一个在Hive上执行过程SQL的工具

HPL / SQL是一种为Hive实现过程化SQL的工具。从Hive 2.0.0（HIVE-11055）开始可用。HPL/SQL对于Hive的意义，也就是PL/SQL对于Oracle的意义。对于广大的数据开发者有以下几点福音1.使用变量、表达式、控制流声明、迭代来实现复杂的业务逻辑，使用异常处理程序和条件处理器来实现高级错误处理。2.使SQL-on-Hadoop更动态，...

发表了文章 • 2018-06-08 16:49 • 0 条评论