1
推荐
1722
阅读

三个框架与库,SFrame,Hdp2与skflow

今天给各位亲推荐数据科学的三个框架或者库。01 SFrame这家公司最初的名字叫graphlab,后来改名为dato,最近又进行了一次改名,叫turi了,这名字起得,图日吗?最近这次改名,是因为和datto的名字太相近了,被datto告了,因此改名为turi,目前的网站也已经变成turi.com了。其机器学习框架create貌似非常强大,提供的功能...

发表了文章 • 2016-09-02 23:17 • 0 条评论

0
推荐
2611
阅读

合理设置Spark数据分区

在Hadoop的map-reduce编程模型中,框架要做的第一步事情,也是对数据进行分块切分,然后对每块数据调用mapper程序进行处理,mapper处理完将结果交给reducer进行第二阶段的处理。在Spark中,也是同样的逻辑。Spark会先对数据进行分区处理,然后在每个分区数据上调用一个task执行线程来执行相应的计算。在使用Python调用Sp...

发表了文章 • 2016-08-25 11:25 • 0 条评论

5
推荐
1803
阅读

《全栈数据之门》初稿完成

《全栈数据之门》(暂定书名)是末学近5年来工作技能的积累,从8个月前开通公众号写的第一篇起,中间也不知度过了多少个寂寞的夜晚。写文章本来就是一个很费力的活,况且写书要求还得高些。原计划写的是七章,每章七篇,共计七七得四十九篇。只是在写作过程中,舍弃了部分原计划的篇幅。感觉以目前的功力,或是写不出特...

发表了文章 • 2016-08-10 12:45 • 9 条评论

2
推荐
2090
阅读

Spark2.0,重要更新与改进

01 引言就在前天(2016.07.26号),Spark2.0正式版本发布了。来看看当今最世上最强大的全栈数据处理框架吧!作为数据科学人员,如果一生只能学一个框架,那就先Spark!In addition, this release includes over 2500 patches from over 300 contributors.此版本超过2500个补丁,超过300位贡献者! 看看,这就是全人...

发表了文章 • 2016-07-29 12:12 • 0 条评论

3
推荐
1501
阅读

0x03 近朱者赤,相亲knn

摘要:城市越大,圈子越小,人越感到孤单。相亲,在对对方一无所知的情况下,怎么快速的掌握对方的信息呢?想知道眼前的帅哥有没有房子,KNN,即K近邻算法,便可以很好解决相亲的问题。城市越大,圈子越小,人越感到孤单。怀念家乡的小城市,随便走一圈,几乎处处都有熟人。城市大了,汇聚了全国的人,逛上一天,也不见...

发表了文章 • 2016-05-19 15:48 • 0 条评论