1
推荐
1722
阅读
三个框架与库,SFrame,Hdp2与skflow
今天给各位亲推荐数据科学的三个框架或者库。01 SFrame这家公司最初的名字叫graphlab,后来改名为dato,最近又进行了一次改名,叫turi了,这名字起得,图日吗?最近这次改名,是因为和datto的名字太相近了,被datto告了,因此改名为turi,目前的网站也已经变成turi.com了。其机器学习框架create貌似非常强大,提供的功能...
0
推荐
2611
阅读
合理设置Spark数据分区
在Hadoop的map-reduce编程模型中,框架要做的第一步事情,也是对数据进行分块切分,然后对每块数据调用mapper程序进行处理,mapper处理完将结果交给reducer进行第二阶段的处理。在Spark中,也是同样的逻辑。Spark会先对数据进行分区处理,然后在每个分区数据上调用一个task执行线程来执行相应的计算。在使用Python调用Sp...
5
推荐
1803
阅读
《全栈数据之门》初稿完成
《全栈数据之门》(暂定书名)是末学近5年来工作技能的积累,从8个月前开通公众号写的第一篇起,中间也不知度过了多少个寂寞的夜晚。写文章本来就是一个很费力的活,况且写书要求还得高些。原计划写的是七章,每章七篇,共计七七得四十九篇。只是在写作过程中,舍弃了部分原计划的篇幅。感觉以目前的功力,或是写不出特...
2
推荐
2090
阅读
Spark2.0,重要更新与改进
01 引言就在前天(2016.07.26号),Spark2.0正式版本发布了。来看看当今最世上最强大的全栈数据处理框架吧!作为数据科学人员,如果一生只能学一个框架,那就先Spark!In addition, this release includes over 2500 patches from over 300 contributors.此版本超过2500个补丁,超过300位贡献者! 看看,这就是全人...
3
推荐
1501
阅读
0x03 近朱者赤,相亲knn
摘要:城市越大,圈子越小,人越感到孤单。相亲,在对对方一无所知的情况下,怎么快速的掌握对方的信息呢?想知道眼前的帅哥有没有房子,KNN,即K近邻算法,便可以很好解决相亲的问题。城市越大,圈子越小,人越感到孤单。怀念家乡的小城市,随便走一圈,几乎处处都有熟人。城市大了,汇聚了全国的人,逛上一天,也不见...