数据科学家养成记

鲁伟 一个数据科学践行者的学习日记。数据挖掘与机器学习,R与Python,理论与实践并行。个人公众号:数据科学家养成记 (微信ID:louwill12)

2
推荐
2942
阅读

使用jupyter notebook搭建数据科学最佳交互式环境

 小编近来在猛攻Python,毕竟江湖人传“人生苦短,我用Python”。当然了,自然也不是为了跟风,从去年开始小编的Python水平就一直处于从入门到放弃状态,而今为了提升核心竞争力,必然要下功夫学习一番。作为当下数据科学最热的两门编程语言,R和Python一直都是圈内焦点。小编今天要谈的是如何使用jupyter notebook这...

发表了文章 • 2017-12-01 09:59 • 0 条评论

0
推荐
1970
阅读

R编程特性1:向量与向量化

    从这一期开始,小编打算从程序语言的角度来认真审视和研究一下R。系列名称就叫做R语言编程特性,从最基本的数据结构开始讲起,包括向量、矩阵、数组、列表、数据框和因子这六大数据类型,R的编程结构和面向对象编程、IO编程、R的性能以及并行计算等内容。     R虽是统计学家们开...

发表了文章 • 2017-11-15 14:42 • 0 条评论

0
推荐
2335
阅读

ggduo:多元统计分析的可视化展示

数缺形时少直观。GGally包中的ggduo函数可以让你在多元统计分析中对分组数据进行可视化展示。这在典型相关分析和回归分析中进行图形展示十分有用。ggduoggduo()函数来自于 ggplot2的扩展版本包 GGally,对于多元统计分析下的两组数据变量绘制统计图矩阵有着独特的效果。 ggduo()的基本用法如下:ggduo(data, mapping = N...

发表了文章 • 2017-11-15 14:34 • 0 条评论

3
推荐
3853
阅读

R Markdown|可能是你数据分析报告最好的解决方案

为什么要用Rmd?如果你是第一次听到R Markdown这个名词的话,可能你会问R Markdown是什么?我们能用它来做什么?怎么使用R Markdown?且听小编跟你道来。当初人才计划进行到第二阶段的时候,水妈要求我们所有的 R 代码都需要通过R Markdown生成html来提交。一开始并不了解其中奥义,在此之前印象中那只是一个可以用来生...

发表了文章 • 2017-11-15 14:25 • 1 条评论

0
推荐
3834
阅读

R语言爬虫系列6|动态数据抓取范例

R语言爬虫系列文章之:R语言爬虫系列1|HTML基础与R语言解析R语言爬虫系列2|XML&XPath表达式与R爬虫应用R语言爬虫系列3|HTTP协议R语言爬虫系列4|AJAX与动态网页介绍通过前面几期的推送,小编基本上已经将R语言爬虫所需要的基本知识介绍完了。R虽然是以一门统计分析工具出现在大多数人印象中的,但其毕竟本质上是一门...

发表了文章 • 2017-11-15 14:21 • 0 条评论

2
推荐
2621
阅读

R语言爬虫系列5|正则表达式与字符串处理函数

R语言爬虫系列文章之:R语言爬虫系列1|HTML基础与R语言解析R语言爬虫系列2|XML&XPath表达式与R爬虫应用R语言爬虫系列3|HTTP协议R语言爬虫系列4|AJAX与动态网页介绍无论是R中的RCurl组件还是Python的BeautifulSoup库,对网页HTML完成下载解析之后我们从这些看似杂乱无章的文本中拿到我们感兴趣的数据。之前在系列2的...

发表了文章 • 2017-11-15 14:16 • 0 条评论

0
推荐
3033
阅读

R语言爬虫系列4|AJAX与动态网页介绍

R语言爬虫系列文章之:R语言爬虫系列1|HTML基础与R语言解析R语言爬虫系列2|XML&XPath表达式与R爬虫应用R语言爬虫系列3|HTTP协议很早之前就写过用rvest包实现对静态网页的抓取之类的文章,以至于很久之后看到那些文章的朋友还拿来套,以为换个网址也能达到同样的抓取效果。然而事与愿违,殊不知这些通常自己会“动”,...

发表了文章 • 2017-11-15 14:13 • 0 条评论

0
推荐
3732
阅读

R语言爬虫系列3|HTTP协议

要想使用R语言从网络抓取数据,我们就必须对R语言进行设置使得R具备与服务器及Web服务进行通信的能力。而互联网中进行网络通信的通用语言就是HTTP(HypterText Transfer Protocol),即所谓超文本传输协议。那这个超文本传输协议是个什么东西呢? 超文本协议是一种用于分布式、协作式和超媒体信息系统的应用层协议,...

发表了文章 • 2017-09-18 11:29 • 0 条评论

0
推荐
2494
阅读

R语言爬虫系列2|XML&XPath表达式与R爬虫应用

昨天跟微信上一不认识的同是搞数据技术的圈友聊天,我说最近在写一个R语言爬虫系列,想把Python爬虫那一套用R实现看看,刚开始在讲HTML和XML的内容。这位朋友是前端转数据库开发,说了一句HTML和XML这些知识还不简单,能看得懂英文的都能看得懂HTML代码,HTML连编程语言都不是,以现在搞互联网技术年轻人的学习能力,一...

发表了文章 • 2017-09-18 11:15 • 0 条评论

1
推荐
2703
阅读

R语言爬虫系列1|HTML基础与R语言解析

在众多的数据科学与网络技术中,louwill越来越发现大家对爬虫的兴趣要大于其他技术。微信上经常跑过来问我爬虫问题的同学不在少数,每次的问题除了具体的某个技术细节外,无外乎这个爬虫需求能否用R实现,那个爬虫操作能否用R搞定之类。每次碰到自己不能解决的,就只好说抱歉啊同学,你这个爬虫需求好像R爬虫不能解决哦...

发表了文章 • 2017-09-06 14:00 • 0 条评论

0
推荐
1477
阅读

数据工作岗位薪资水平影响因素研究

在这个数据和信息爆炸的时代,依靠一手漂亮的数据分析能力找到一份令人艳羡的数据科学相关的工作早已不是什么稀罕事。坊间早有传言说数据科学家是21世纪最性感的职业,与数据相关的岗位像数据分析、数据挖掘等工作已是众多年轻人追求的目标。这么多人将找工作的目光聚集在数据相关岗位上,这些岗位机会除了能使得你走在...

发表了文章 • 2017-09-05 14:12 • 0 条评论

1
推荐
1584
阅读

R语言学习之道:罗马非一日建成

本文翻译和改编自Sharp Sight Labs要想精通数据科学,大量的练习必不可少。说起来容易做起来难,实际上很多人并不知道该如何练习。如何进行数据科学的训练是一个十分广泛的话题,这有点超出本文所要介绍的范围了,但在这里我还是想给大家介绍一些有效的建议:在众多的数据科学技能之中,你一开始最应该掌握最重要的那些...

发表了文章 • 2017-08-30 15:34 • 0 条评论

0
推荐
5262
阅读

ggradar:R语言雷达图最好的解决方案

今天小编要给大家介绍的是如何在 R 语言中绘制漂亮的雷达图,说到这雷达图,大家可能并不陌生,咱们的 excel 中就有非常方便的雷达图画法。雷达图又叫戴布拉图、蜘蛛网图,通常在财务报表分析中使用较多。但在描述性统计分析中,雷达图正在被越来越多的人使用。在 R 语言中,我们可以通过 ggplot2 的一款扩展主题包——ggr...

发表了文章 • 2017-08-28 11:51 • 0 条评论

0
推荐
1511
阅读

ggtech:您有一份来自Airbnb/Google的配色方案需要查收

自从参加了人才计划和学习了水妈的丑图百讲之后,小编决心告别直男审美,要按照准确有效简单美观的八字真言把统计图表做好。而统计图很重要的一点就是用好配色,今天小编就介绍一款可以应用Airbnb/Google/Facebook配色方案的ggplot2扩展主题包——ggtech。小编以前年少无知,只知粗犷放养,不知精耕细作。有幸得到狗熊会各...

发表了文章 • 2017-08-22 14:16 • 0 条评论

0
推荐
1829
阅读

ggstance:ggplot2的水平版本

好些天没更了!如今小编的狗熊会人才计划结束,终于腾出手来自己玩了!看到标题你可能会有疑问,ggplot2的水平版本又是什么鬼,其实没那么玄乎,就是把正常的ggplot2图形翻转一下,横着放。类似于柱状图和条形图那样的区别。或许你还有疑问,不就是把 ggplot2 图形水平放置吗有必要单独拎出来讲?硬要说其实也没那个必要...

发表了文章 • 2017-08-14 11:50 • 0 条评论