0
推荐
1656
阅读

fpgrowth算法

一、关联规则的三个指标:1) 支持度 support(A => B)     = P(A,B) = |A n B| / |N|,表示数据集D中,事件A和事件B共同出现的概率 2) 置信度 confidence(A => B) = P(B|A) = |A n B| / |A|,表示数据集D中,出现事件A的事件中出现事件B的概率 3) 提升度 lift(A => B) = P(...

发表了文章 • 2020-05-19 18:22 • 0 条评论

2
推荐
9043
阅读

spark中df, rdd, list 转换

df to rdd: df.rdd.map(list) df.rdd.map(tuple) df.rdd.map(lambda x: list(x[0])) rdd to list: rdd1.collect() df to list: df.rdd.map(list).collect() df.rdd.map(tuple).collect() rdd to df: rdd1.toDF() list to rdd: sc.parallelize(list1) list to df: sc.parallelize(list1)...

发表了文章 • 2019-01-11 15:19 • 0 条评论

1
推荐
1647
阅读

zeppelin 安装移植简述

复制zeppelin目录或下载解压 zeppelinscp -q -r /cnn/zeppelin-0.8.0-bin-all user@hostname:/python-project scp -q -r /cnn/spark-2.3.2-bin-hadoop2.7/ user@hostname:/python-project或下载网址:http://zeppelin.apache.org/download.html  wget http://mirror.bit.edu.cn/apache/zeppelin/zeppelin-0.8....

发表了文章 • 2018-12-20 15:41 • 0 条评论

1
推荐
1865
阅读

spark dataframe的一些用法

DataFrame在RDD的基础上加了Schema,DataFrame曾用名SchemaRDD,对类SQL支持。   结构化数据:Dataframe      SQL queries, maps, filters非结构化数据:RDD               media or text streamsDataFrame 的函数Action 操作1、 collect() ,返回值是一个...

发表了文章 • 2018-11-29 23:06 • 0 条评论