3、Spark（2016.5月中旬写完---已完成）文章分类 CharlotteDataMining的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

1

推荐

1853

阅读

【原】Spark之机器学习(Python版)(二)——分类

写这个系列是因为最近公司在搞技术分享，学习Spark，我的任务是讲PySpark的应用，因为我主要用Python，结合Spark，就讲PySpark了。然而我在学习的过程中发现，PySpark很鸡肋（至少现在我觉得我不会拿PySpark做开发）。为什么呢？原因如下：　　1.PySpark支持的算法太少了。我们看一下PySpark支持的算法:(参考官方文档)前...

发表了文章 • 2018-01-02 10:00 • 0 条评论

0

推荐

1566

阅读

【原】Spark之机器学习(Python版)(一)——聚类

kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包（当然自己写也很简单）。那么在Spark里能不能也直接使用sklean包呢？目前来说直接使用有点困难，不过我看到spark-packages里已经有了，但还没有发布。不过没关系，PySpark里有ml包，除了ml包，还可以使用MLlib，这个在后期会写，也很...

发表了文章 • 2018-01-02 09:54 • 0 条评论

0

推荐

2150

阅读

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

本来这篇是准备5.15更的，但是上周一直在忙签证和工作的事，没时间就推迟了，现在终于有时间来写写Learning Spark最后一部分内容了。　　第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好，那么它在实时数据上的表现怎么样呢？在实际生产中，我们经常需要即使处理收到...

发表了文章 • 2017-12-27 10:33 • 0 条评论

3

推荐

1727

阅读

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

　周末的任务是更新Learning Spark系列第三篇，以为自己写不完了，但为了改正拖延症，还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程（本地+集群），性能调优以及Spark SQL相关的知识，如果对Spark不熟的同学可以先看看之前总结的两篇文章：　　【原】Learning Spark (Python版) 学习笔记(一)----RDD 基...

发表了文章 • 2017-12-27 10:15 • 0 条评论

1

推荐

2478

阅读

【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

键值对（PaiRDD）1.创建#在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数 pairs = lines.map(lambda x:(x.split(" ")[0],x))2.转化(Transformation)转化操作很多，有reduceByKey，foldByKey()，combineByKey()等，与普通RDD中的reduce()、fold()、aggregate()等类似，只不过是根据键来进行操作。reduceBy...

发表了文章 • 2017-12-26 11:54 • 0 条评论

3

推荐

1612

阅读

【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

《Learning Spark》这本书算是Spark入门的必读书了，中文版是《Spark快速大数据分析》，不过豆瓣书评很有意思的是，英文原版评分7.4，评论都说入门而已深入不足，中文译版评分8.4，评论一片好评，有点意思。我倒觉得这本书可以作为官方文档的一个补充，刷完后基本上对Spark的一些基本概念、码简单的程序是没有问题...

发表了文章 • 2017-12-20 14:56 • 0 条评论