6
推荐
3772
阅读

用Python写一个自己的RFM模型

最近在搞网站数据化运营,过去一直用SPSS做用户价值细分,导入数据点点就完成了。然而,当面临个性化的需求时,这种定制化的工具就满足不了啦!鄙人不才,略懂Python,哈哈,那么接下来我们用numpy和pandas两个包来写一下自己的RFM模型。对于RFM的R、F、M分别是什么,同学们自行百度吧,我偷偷懒,直接给大家详细的讲解...

发表了文章 • 2018-09-12 14:31 • 1 条评论

7
推荐
4778
阅读

实现Hive查询操作HBase中的数据

今天主要给大家讲解一下,如何使用Hive来查询及操作HBase里面的数据,也就是实现二者的数据互通互导,相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文:《白话解说:SQL与NoSQL》https://ask.hellobi.com/blog/Matthew112/12341一、那么看完之后我们先来简单了解一下HBase如何存放数据及对应语法:HBase ...

发表了文章 • 2018-08-27 19:54 • 4 条评论

7
推荐
2413
阅读

大数据环境-快速安装使用

安装大数据环境的技术博文、甚至视频课在网上有太多太多啦。还是有很多小伙伴很头疼环境安装配置,怎么安装怎么配置,总有出错的地方,都其中最头疼的莫过于Linux系统的操作。认识一个做数据的朋友,他习惯于windows的桌面操作,鼠标点点点...Excel、SPSS、Navicat、SAS等等等...他最有意思的一句话就是:Linux用起来没...

发表了文章 • 2018-08-21 14:54 • 5 条评论

6
推荐
2939
阅读

三步构建Hive自己的dual

       dual表的概念来自oracle,数据库建立时即与数据字典一起初始化,该表只有一个varchar2类型名为dummy的字段,表数据只有一行“X”,用来查询一些系统信息,如select sysdate from dual等。       Hive也可以建立自己的虚表-dual!1.首先创建一个空的txt,dual.txt,将X重定...

发表了文章 • 2018-07-20 14:19 • 1 条评论

5
推荐
1931
阅读

Hive分区技术

本周已经更新完成Hive分区的三个章节:技术详解,多重分区,动态分区在Hive Select查询中一般会扫描整个表的内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中我们关心的一部分数据,因此建表时引入了partition概念。分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对...

发表了文章 • 2018-07-20 13:57 • 0 条评论

5
推荐
2583
阅读

白话解说:SQL与NoSQL

本文用最简明的方式讲解一下RDBMS与NoSQL,以MySQL和HBase存储同一批数据作为对比,带你迅速了解NoSQL知识!

发表了文章 • 2018-06-26 11:26 • 0 条评论

6
推荐
2266
阅读

Hive实战技能 第一部

课程终于上线了,自己的第一部课,算是对自己这几年职业生涯的一次总结。接触Hive比较久,一个版本一个版本的跟到现在,从最初连NOT IN 和 NOT LIKE都不支持,到现在能够实现物化视图,这也见证了开源的力量。回想自己的当初从校园到实习,接触SQL Server、Oracle,踏入职场接触MySQL、Hadoop、Spark,越来越着迷。SQL是...

发表了文章 • 2018-06-20 13:21 • 2 条评论

3
推荐
2992
阅读

HPL/SQL (Hive Hybrid Procedural SQL On Hadoop) --- 一个在Hive上执行过程SQL的工具

HPL / SQL是一种为Hive实现过程化SQL的工具。从Hive 2.0.0(HIVE-11055)开始可用。HPL/SQL对于Hive的意义,也就是PL/SQL对于Oracle的意义。对于广大的数据开发者有以下几点福音1.使用变量、表达式、控制流声明、迭代来实现复杂的业务逻辑,使用异常处理程序和条件处理器来实现高级错误处理。2.使SQL-on-Hadoop更动态,...

发表了文章 • 2018-06-08 16:49 • 0 条评论