6
推荐
3772
阅读
用Python写一个自己的RFM模型
最近在搞网站数据化运营,过去一直用SPSS做用户价值细分,导入数据点点就完成了。然而,当面临个性化的需求时,这种定制化的工具就满足不了啦!鄙人不才,略懂Python,哈哈,那么接下来我们用numpy和pandas两个包来写一下自己的RFM模型。对于RFM的R、F、M分别是什么,同学们自行百度吧,我偷偷懒,直接给大家详细的讲解...
7
推荐
4778
阅读
实现Hive查询操作HBase中的数据
今天主要给大家讲解一下,如何使用Hive来查询及操作HBase里面的数据,也就是实现二者的数据互通互导,相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文:《白话解说:SQL与NoSQL》https://ask.hellobi.com/blog/Matthew112/12341一、那么看完之后我们先来简单了解一下HBase如何存放数据及对应语法:HBase ...
7
推荐
2413
阅读
大数据环境-快速安装使用
安装大数据环境的技术博文、甚至视频课在网上有太多太多啦。还是有很多小伙伴很头疼环境安装配置,怎么安装怎么配置,总有出错的地方,都其中最头疼的莫过于Linux系统的操作。认识一个做数据的朋友,他习惯于windows的桌面操作,鼠标点点点...Excel、SPSS、Navicat、SAS等等等...他最有意思的一句话就是:Linux用起来没...
6
推荐
2939
阅读
三步构建Hive自己的dual
dual表的概念来自oracle,数据库建立时即与数据字典一起初始化,该表只有一个varchar2类型名为dummy的字段,表数据只有一行“X”,用来查询一些系统信息,如select sysdate from dual等。 Hive也可以建立自己的虚表-dual!1.首先创建一个空的txt,dual.txt,将X重定...
5
推荐
1931
阅读
Hive分区技术
本周已经更新完成Hive分区的三个章节:技术详解,多重分区,动态分区在Hive Select查询中一般会扫描整个表的内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中我们关心的一部分数据,因此建表时引入了partition概念。分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对...
5
推荐
2583
阅读
白话解说:SQL与NoSQL
本文用最简明的方式讲解一下RDBMS与NoSQL,以MySQL和HBase存储同一批数据作为对比,带你迅速了解NoSQL知识!
6
推荐
2266
阅读
Hive实战技能 第一部
课程终于上线了,自己的第一部课,算是对自己这几年职业生涯的一次总结。接触Hive比较久,一个版本一个版本的跟到现在,从最初连NOT IN 和 NOT LIKE都不支持,到现在能够实现物化视图,这也见证了开源的力量。回想自己的当初从校园到实习,接触SQL Server、Oracle,踏入职场接触MySQL、Hadoop、Spark,越来越着迷。SQL是...
3
推荐
2992
阅读
HPL/SQL (Hive Hybrid Procedural SQL On Hadoop) --- 一个在Hive上执行过程SQL的工具
HPL / SQL是一种为Hive实现过程化SQL的工具。从Hive 2.0.0(HIVE-11055)开始可用。HPL/SQL对于Hive的意义,也就是PL/SQL对于Oracle的意义。对于广大的数据开发者有以下几点福音1.使用变量、表达式、控制流声明、迭代来实现复杂的业务逻辑,使用异常处理程序和条件处理器来实现高级错误处理。2.使SQL-on-Hadoop更动态,...