全栈数据

云戒说技术:Linux、Python、大数据、Hadoop、Spark、数据分析、数据挖掘、机器学习、深度学习、安全、Mac、Emacs;云戒说生活:工作、生活、人生、佛法、易学、创业。

1
推荐
1720
阅读

三个框架与库,SFrame,Hdp2与skflow

今天给各位亲推荐数据科学的三个框架或者库。01 SFrame这家公司最初的名字叫graphlab,后来改名为dato,最近又进行了一次改名,叫turi了,这名字起得,图日吗?最近这次改名,是因为和datto的名字太相近了,被datto告了,因此改名为turi,目前的网站也已经变成turi.com了。其机器学习框架create貌似非常强大,提供的功能...

发表了文章 • 2016-09-02 23:17 • 0 条评论

0
推荐
2609
阅读

合理设置Spark数据分区

在Hadoop的map-reduce编程模型中,框架要做的第一步事情,也是对数据进行分块切分,然后对每块数据调用mapper程序进行处理,mapper处理完将结果交给reducer进行第二阶段的处理。在Spark中,也是同样的逻辑。Spark会先对数据进行分区处理,然后在每个分区数据上调用一个task执行线程来执行相应的计算。在使用Python调用Sp...

发表了文章 • 2016-08-25 11:25 • 0 条评论

5
推荐
1799
阅读

《全栈数据之门》初稿完成

《全栈数据之门》(暂定书名)是末学近5年来工作技能的积累,从8个月前开通公众号写的第一篇起,中间也不知度过了多少个寂寞的夜晚。写文章本来就是一个很费力的活,况且写书要求还得高些。原计划写的是七章,每章七篇,共计七七得四十九篇。只是在写作过程中,舍弃了部分原计划的篇幅。感觉以目前的功力,或是写不出特...

发表了文章 • 2016-08-10 12:45 • 9 条评论

2
推荐
2084
阅读

Spark2.0,重要更新与改进

01 引言就在前天(2016.07.26号),Spark2.0正式版本发布了。来看看当今最世上最强大的全栈数据处理框架吧!作为数据科学人员,如果一生只能学一个框架,那就先Spark!In addition, this release includes over 2500 patches from over 300 contributors.此版本超过2500个补丁,超过300位贡献者! 看看,这就是全人...

发表了文章 • 2016-07-29 12:12 • 0 条评论

0
推荐
1408
阅读

0x08 大数据分析,七层基本功

**摘要:欲练数据神功,必先挥刀……,嗯,先扎好马步吧!编写SQL语句,是数据统计分析最基本的能力了。觉得SQL的自定义功能太弱了,或者你觉得就算是Hive调用外部脚本也麻烦了,那么我们上当前最热的Spark**2016就要来了,避不及,躲不开。新一年来之前,还是有一件值得高兴的事情,那便是年终奖了。公司大了,什么样的人...

发表了文章 • 2016-05-26 18:36 • 0 条评论

2
推荐
1448
阅读

0x07 数据民工,一致性洗车

**摘要:数据科学家是二十一世纪最性感的的职业。面临充斥着脏乱差的数据,处理数据一致性问题是其中一项重要任务。人的强项在于智能,却不善于处理重复且枯燥无味的事情。机器不具有智能,却善于处理重复且简单的事情。**## 01 性感还是闷骚《哈佛商业评论》说:数据科学家是二十一世纪最性感的的职业。  理...

发表了文章 • 2016-05-26 18:32 • 0 条评论

2
推荐
1765
阅读

0x06 缘起Linux, 一入Mac误终身

摘要:苹果公司总裁乔布斯是贤动千佛中的金刚慧佛,由他创造的iPod,iPhone,Mac,引领着IT世界之潮流。Mac基于Unix,和Linux师出同门,强大的Shell保证了工作习惯和效率。Mac版本的爱奇艺没有广告。01 缘起Linux宇宙在成、住、坏、空的循环成灭过程中,现在的劫称为贤劫,贤劫中出现于世之千佛即为贤劫千佛。当今世界之...

发表了文章 • 2016-05-24 17:48 • 0 条评论

2
推荐
2064
阅读

0x05 Python数据分析,Anaconda八斩刀

摘要:武侠,是成人的童话。江湖,是门派的斗争。数据科学已经开山立派,Python便是其中独领风搔的兵器。如果数据科学是IT武侠中的咏春,那么Anaconda便是数据科学中的八斩刀。做数据分析,Anaconda,你值得拥有。武侠,是成人的童话。江湖,是门派的斗争。要想在江湖中闯出名堂,那么称手的兵器很有必要。数据科学已经...

发表了文章 • 2016-05-24 17:35 • 2 条评论

0
推荐
1597
阅读

0x04 App接口,三大环境

摘要:互联天下,移动为王。丝丝理清,避免乱麻。程序员在自己的环境,有自己熟悉的开发工具或者IDE,有自己熟悉的调试工具或者流程。修改生产环境的任何一行代码,都可能会影响到用户。没有任何人敢保证当前这行代码不会影响用户的使用。互联天下,移动为王。丝丝理清,避免乱麻。曾经一度也做过移动APP的后端开发,根...

发表了文章 • 2016-05-24 17:32 • 0 条评论

3
推荐
1496
阅读

0x03 近朱者赤,相亲knn

摘要:城市越大,圈子越小,人越感到孤单。相亲,在对对方一无所知的情况下,怎么快速的掌握对方的信息呢?想知道眼前的帅哥有没有房子,KNN,即K近邻算法,便可以很好解决相亲的问题。城市越大,圈子越小,人越感到孤单。怀念家乡的小城市,随便走一圈,几乎处处都有熟人。城市大了,汇聚了全国的人,逛上一天,也不见...

发表了文章 • 2016-05-19 15:48 • 0 条评论

6
推荐
1723
阅读

0x01 念念Python,必有回响

摘要:灵蛇出现,必有异像,Python最热的领域,估计非数据分析、挖掘领域莫属了。以Scikit-Learn为代表的数据分析领域,从这里开始,便是Python的天下;一边操作实例,一边阅读文档,再辅助以相关的理论基础,持之数日,则大业可成也。01 灵蛇出现,必有异像蛇有灵性,蟒蛇更甚。民间关心打死蛇后出现的种种因果报应现象...

发表了文章 • 2016-05-19 15:33 • 1 条评论