数据科学家养成记

鲁伟 一个数据科学践行者的学习日记。数据挖掘与机器学习,R与Python,理论与实践并行。个人公众号:数据科学家养成记 (微信ID:louwill12)

0
推荐
1738
阅读

ggedit : 交互式ggplot图形参数修改

ggplot2 作为 Hadley 大神推进R语言革命的关键性扩展包之一,受欢迎程度无可匹敌。但是今天这篇不是来夸 ggplot2 的,咱是来找麻烦的。对 ggplot2 熟悉的朋友多少都受其调参之苦,小编就是其中之一。对于 ggplot2 而言,你学的越深入,那些繁多的参数项可能越让你抓狂。先介绍前几天意外收获的一款包:cranlogs (从狗熊...

发表了文章 • 2017-08-10 15:55 • 0 条评论

0
推荐
1631
阅读

【译】高质量R绘图的10条tips

数缺形时少直观    形少数时难入微   数形结合百般好    隔离分家万事休                                                       ...

发表了文章 • 2017-08-08 15:57 • 0 条评论

0
推荐
2169
阅读

Python面向对象编程:数据封装、继承和多态

小编的 Python 学习之路颇不顺畅,平日里不大会合理安排时间,东一榔头西一钉耙的学习方法怕是不能久远,看别人是 Python从入门到精通,估计小编再这样下去是要从入门到放弃了。昨日在某个 R 语言学习群里听到某圈友说吴喜之老先生都 70 多岁了还在学习 Python,前几日又从另外一个圈子听到某位朋友说他在搞计算机基础教...

发表了文章 • 2017-07-31 16:16 • 0 条评论

1
推荐
4872
阅读

如何写出整洁规范的R代码?是时候讨论一下代码规范性了

最近在参加狗熊会的一个艰苦的人才计划训练,训练内容是非常响应实际业务场景的数据分析与报告写作。熊学院的大大们异常严格,敢情小编二十几年了没被人这么严格要求过,每当TASK做到深夜想起此事不觉心酸又兴奋。心酸的是自己从前没有受到过这么好的数据分析指点,兴奋的是得到一次千载难逢的学习机会。最近熊学院的政...

发表了文章 • 2017-07-26 15:34 • 0 条评论

0
推荐
2733
阅读

R语言也能玩ps?magick包你值得拥有

今天要给大家介绍的是2017年的一款新包——magick包。可能大家看到推文题目也都知道了,这是一款图片与图像处理的扩展包,以后ps能做的R语言一定程度上也可以做啦。毕竟从大数据的角度来讲,图片图像数据也是数据嘛。话不多说,小编带大家直接上手magick包。安装安装和载入magick包后,可查看在R语言中支持哪些图片格式。i...

发表了文章 • 2017-07-26 15:32 • 0 条评论

0
推荐
4558
阅读

【机器学习】决策树总结|ID3 C4.5/C5.0 CHAID CART与QUEST

目录● 概要● 决策树模型     ● 特征选择     ● 决策树学习     ● 决策树剪枝● 决策树算法     ● ID3     ● C4.5/C5.0     ● CHAID     ● CART     ● QUEST概要决策树作为一种基本的分类与回归方法(更多时候指分类),是学习数据...

发表了文章 • 2017-07-18 14:57 • 0 条评论

0
推荐
3152
阅读

R语言向量化运算:apply函数族用法心得

当初入坑R语言的时候,就在各种场合看到老司机的忠告,“尽量避免使用循环!”一开始并不明白这其中的奥义,直到后来对R语言有深入接触后,才领会R语言在向量化运算方面的强大功能。本篇内容就总结小编在使用R语言向量化运算apply函数族的一些心得体会。至于R写循环为什么执行效率低下,小编也从技术论坛上得到了一些解释...

发表了文章 • 2017-07-14 15:28 • 0 条评论

0
推荐
1209
阅读

Python模块安装与使用

Python模块简介大家都知道R语言在CRAN上有很多封装好数据和函数的扩展包供大家下载调用,十分方便,在Python里也有类似于R包的Python库供大家调用。今天要学习的内容是Python模块(module)。当然了,在Python中,库(lib)、模块(module)和包(package)是三个有区别的概念。在Python中,一个.py文件就可以算作是一个...

发表了文章 • 2017-07-14 15:22 • 0 条评论

1
推荐
1606
阅读

Python装饰器

所谓装饰器(decorator)指的是在Python代码运行期间动态的增加函数功能的一种方式。在上一节我们知道Python函数在运行时允许返回函数,而函数作为对象也可以被赋值给其他变量来调用,比如:>>> def LAL():...    print('kobe')...>>> f = LAL>>> f()kobe每个函数对...

发表了文章 • 2017-07-14 14:45 • 1 条评论

0
推荐
2539
阅读

kaggle:谁是NBA最佳防守球员?(二)

接着前几天发的关于kaggle中NBA球员投篮数据探索性数据分析和可视化分析之后,小编本打算对这13万的投篮数据跑几个机器学习模型预测一下投篮的,可是电脑内存不给力,试了几次之后便作罢了。还打算第一次试一下kaggle上被传的神乎其技的大杀器xgboost的呢。机器学习的模型都写好了,有图为证:于是便转而去做特征构造,...

发表了文章 • 2017-07-05 11:20 • 0 条评论

0
推荐
2243
阅读

如何使用reshape/reshape2使劲揉你的数据

想必各位之前对 Hadley Wickham 大神都有所耳闻了。名声遐迩的ggplot2就是Hadley大神一手开发的,当然大神还很多产,除了ggplot2,还写了plyr、dplyr以及本文要说的reshape/reshape2包。作为Rstudio的首席科学家,让我们在学习reshape包之前膜拜一下Hadley大神:reshape/reshape2包提供了一套数据重构和整合的工具。功能...

发表了文章 • 2017-07-05 11:15 • 0 条评论

0
推荐
1642
阅读

[简报]2017 R与Python的求职动态

上一次在 indeed.com 网上查看计算机类岗位求职趋势时,R语言还处于籍籍无名的状态。2017年上半年以来,在 indeed.com 上R语言已经成功超越 SAS 成为最受企业重视的数据科学编程语言技能。图上可以看出,过去几年R与Python在求职过程的重要性不断提升,二者趋势十分接近,看来业界对于R和Python在数据科学领域并驾...

发表了文章 • 2017-06-30 13:01 • 0 条评论

2
推荐
3441
阅读

[译]怎样才算精通R语言?

几周前我曾写了一篇呼吁人们应该熟练掌握R语言的文章。最基本的问题在于,如果你想像一名数据科学家一样工作的话,你必须掌握有关于数据科学的基本工具。一位读者在那篇文章下面留下了他的评论。老实说我是最不愿看到这样的评论的,但不幸的是类似于这位读者的情况确实普遍存在。 这位读者的基本情况是这样,他学习...

发表了文章 • 2017-06-30 12:55 • 0 条评论

0
推荐
2099
阅读

Python函数式编程:返回函数与匿名函数

接着上次的Python函数式编程,小编继续往下学习了函数式编程的剩下的一些内容。今天的内容包括返回函数和匿名函数。顺便说一句,Python真的比R难学啊,对于没有计算机学科基础的同学来说,自学Python确实挺头疼的。>>>>返回函数所谓返回函数,顾名思义,就是把函数作为返回值。高阶函数除了可以将函数作为参...

发表了文章 • 2017-06-30 12:52 • 0 条评论

0
推荐
5047
阅读

R语言与优化模型(三):图与网络优化

用R语言做优化也不是一次两次了,继前面的R语言线性与非线性规划之后,小编今天要把R做规划的最后一部分:图与网络规划的R实现给学习了。学过图论和运筹学的同学应该都知道,图与网络优化是现在数学建模竞赛的一个必备知识储备啊。图与网络优化问题,简单而言就是许多实际研究中的优化问题无法通过数学方程式进行处理而...

发表了文章 • 2017-06-30 12:50 • 0 条评论