1
推荐
1720
阅读
三个框架与库,SFrame,Hdp2与skflow
今天给各位亲推荐数据科学的三个框架或者库。01 SFrame这家公司最初的名字叫graphlab,后来改名为dato,最近又进行了一次改名,叫turi了,这名字起得,图日吗?最近这次改名,是因为和datto的名字太相近了,被datto告了,因此改名为turi,目前的网站也已经变成turi.com了。其机器学习框架create貌似非常强大,提供的功能...
0
推荐
2609
阅读
合理设置Spark数据分区
在Hadoop的map-reduce编程模型中,框架要做的第一步事情,也是对数据进行分块切分,然后对每块数据调用mapper程序进行处理,mapper处理完将结果交给reducer进行第二阶段的处理。在Spark中,也是同样的逻辑。Spark会先对数据进行分区处理,然后在每个分区数据上调用一个task执行线程来执行相应的计算。在使用Python调用Sp...
5
推荐
1799
阅读
《全栈数据之门》初稿完成
《全栈数据之门》(暂定书名)是末学近5年来工作技能的积累,从8个月前开通公众号写的第一篇起,中间也不知度过了多少个寂寞的夜晚。写文章本来就是一个很费力的活,况且写书要求还得高些。原计划写的是七章,每章七篇,共计七七得四十九篇。只是在写作过程中,舍弃了部分原计划的篇幅。感觉以目前的功力,或是写不出特...
2
推荐
2084
阅读
Spark2.0,重要更新与改进
01 引言就在前天(2016.07.26号),Spark2.0正式版本发布了。来看看当今最世上最强大的全栈数据处理框架吧!作为数据科学人员,如果一生只能学一个框架,那就先Spark!In addition, this release includes over 2500 patches from over 300 contributors.此版本超过2500个补丁,超过300位贡献者! 看看,这就是全人...
0
推荐
1408
阅读
0x08 大数据分析,七层基本功
**摘要:欲练数据神功,必先挥刀……,嗯,先扎好马步吧!编写SQL语句,是数据统计分析最基本的能力了。觉得SQL的自定义功能太弱了,或者你觉得就算是Hive调用外部脚本也麻烦了,那么我们上当前最热的Spark**2016就要来了,避不及,躲不开。新一年来之前,还是有一件值得高兴的事情,那便是年终奖了。公司大了,什么样的人...
2
推荐
1448
阅读
0x07 数据民工,一致性洗车
**摘要:数据科学家是二十一世纪最性感的的职业。面临充斥着脏乱差的数据,处理数据一致性问题是其中一项重要任务。人的强项在于智能,却不善于处理重复且枯燥无味的事情。机器不具有智能,却善于处理重复且简单的事情。**## 01 性感还是闷骚《哈佛商业评论》说:数据科学家是二十一世纪最性感的的职业。 理...
2
推荐
1765
阅读
0x06 缘起Linux, 一入Mac误终身
摘要:苹果公司总裁乔布斯是贤动千佛中的金刚慧佛,由他创造的iPod,iPhone,Mac,引领着IT世界之潮流。Mac基于Unix,和Linux师出同门,强大的Shell保证了工作习惯和效率。Mac版本的爱奇艺没有广告。01 缘起Linux宇宙在成、住、坏、空的循环成灭过程中,现在的劫称为贤劫,贤劫中出现于世之千佛即为贤劫千佛。当今世界之...
2
推荐
2064
阅读
0x05 Python数据分析,Anaconda八斩刀
摘要:武侠,是成人的童话。江湖,是门派的斗争。数据科学已经开山立派,Python便是其中独领风搔的兵器。如果数据科学是IT武侠中的咏春,那么Anaconda便是数据科学中的八斩刀。做数据分析,Anaconda,你值得拥有。武侠,是成人的童话。江湖,是门派的斗争。要想在江湖中闯出名堂,那么称手的兵器很有必要。数据科学已经...
0
推荐
1597
阅读
0x04 App接口,三大环境
摘要:互联天下,移动为王。丝丝理清,避免乱麻。程序员在自己的环境,有自己熟悉的开发工具或者IDE,有自己熟悉的调试工具或者流程。修改生产环境的任何一行代码,都可能会影响到用户。没有任何人敢保证当前这行代码不会影响用户的使用。互联天下,移动为王。丝丝理清,避免乱麻。曾经一度也做过移动APP的后端开发,根...
3
推荐
1496
阅读
0x03 近朱者赤,相亲knn
摘要:城市越大,圈子越小,人越感到孤单。相亲,在对对方一无所知的情况下,怎么快速的掌握对方的信息呢?想知道眼前的帅哥有没有房子,KNN,即K近邻算法,便可以很好解决相亲的问题。城市越大,圈子越小,人越感到孤单。怀念家乡的小城市,随便走一圈,几乎处处都有熟人。城市大了,汇聚了全国的人,逛上一天,也不见...
6
推荐
1723
阅读
0x01 念念Python,必有回响
摘要:灵蛇出现,必有异像,Python最热的领域,估计非数据分析、挖掘领域莫属了。以Scikit-Learn为代表的数据分析领域,从这里开始,便是Python的天下;一边操作实例,一边阅读文档,再辅助以相关的理论基础,持之数日,则大业可成也。01 灵蛇出现,必有异像蛇有灵性,蟒蛇更甚。民间关心打死蛇后出现的种种因果报应现象...