0
推荐
1656
阅读
fpgrowth算法
一、关联规则的三个指标:1) 支持度 support(A => B)
= P(A,B) = |A n B| / |N|,表示数据集D中,事件A和事件B共同出现的概率
2) 置信度 confidence(A => B)
= P(B|A) = |A n B| / |A|,表示数据集D中,出现事件A的事件中出现事件B的概率
3) 提升度 lift(A => B)
= P(...
2
推荐
9043
阅读
spark中df, rdd, list 转换
df to rdd:
df.rdd.map(list)
df.rdd.map(tuple)
df.rdd.map(lambda x: list(x[0]))
rdd to list:
rdd1.collect()
df to list:
df.rdd.map(list).collect()
df.rdd.map(tuple).collect()
rdd to df:
rdd1.toDF()
list to rdd:
sc.parallelize(list1)
list to df:
sc.parallelize(list1)...
1
推荐
1647
阅读
zeppelin 安装移植简述
复制zeppelin目录或下载解压 zeppelinscp -q -r /cnn/zeppelin-0.8.0-bin-all user@hostname:/python-project
scp -q -r /cnn/spark-2.3.2-bin-hadoop2.7/ user@hostname:/python-project或下载网址:http://zeppelin.apache.org/download.html
wget http://mirror.bit.edu.cn/apache/zeppelin/zeppelin-0.8....
1
推荐
1865
阅读
spark dataframe的一些用法
DataFrame在RDD的基础上加了Schema,DataFrame曾用名SchemaRDD,对类SQL支持。 结构化数据:Dataframe SQL queries, maps, filters非结构化数据:RDD media or text streamsDataFrame 的函数Action 操作1、 collect() ,返回值是一个...