数据小魔方

杜雨,EasyCharts团队成员,EasyCharts公众号及知乎专栏特约撰稿人。R语言中文社区专栏作者,微信公众号——“数据小魔方”创始人。兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。每天会为您推送Excel商务图表、R语言可视化及数据可视化精彩案例。 个人公众号:数据小魔方(微信ID:datamofang)

0
推荐
2144
阅读

左手用R右手Python系列16——XPath与网页解析库

最近写了不少关于网页数据抓取的内容,大多涉及的是网页请求方面的,无论是传统的RCurl还是新锐大杀器httr,这两个包是R语言中最为主流的网页请求库。但是整个数据抓取的流程中,网页请求仅仅是第一步,而请求获取到网页之后,数据是嵌套在错综复杂的html/xml文件中的,因而需要我们熟练掌握一两种网页解析语法。RCurl包...

发表了文章 • 2017-10-23 10:06 • 0 条评论

0
推荐
2257
阅读

左手用R右手Python系列15——模拟登陆教务系统

最近在练习R语言与Python的网络数据抓取内容,遇到了烦人的验证码问题,走了很多弯路,最终总算解决了。在分享这篇文章之前,只想感慨一声,虽然Python拥有更为完善的爬虫生态和多如牛毛的爬虫分享课程,但是貌似这些大部分内容,使用R语言中的RCurl+httr都可以做到,但是可惜的利用R语言学习爬虫的爱好者与Pythoner相比...

发表了文章 • 2017-10-23 09:59 • 0 条评论

0
推荐
2448
阅读

左手用R右手Python系列14—日期与时间处理

日期与时间格式数据处理通常在数据过程中要相对复杂一些,因为其不仅涉及到不同国家表示方式的差异,本身结构也较为复杂,在R语言和Python中,存在着不止一套方法来处理日期与时间,因而做一个清洗的梳理与对比将会很有价值。本文针对R语言与Python中常用日期与时间函数进行简要对比介绍,力求简单明了,覆盖常用的处理...

发表了文章 • 2017-10-23 09:55 • 0 条评论

2
推荐
1980
阅读

R语言数据清洗实战—世界濒危遗产地数据爬取案例

最近重复新翻阅R语言领域唯一一本关于网络数据采集的参考书——《基于R语言的自动数据收集》,开篇就是一个数据爬取的案例。尽管之前已经粗略的看过一遍,但是仍感书中诸多细节不甚理解,还有平时过于眼高手低,第一遍看的时候只是动眼却不动手,案例几乎很少做过,准备刷第二遍,案例也打算仔仔细细的过一遍,做的时候才...

发表了文章 • 2017-10-17 11:04 • 0 条评论

0
推荐
2389
阅读

R语言爬虫实战—知乎live课程数据爬取实战

本文是一篇R语言爬虫实战练习篇,同样使用httr包来完成,结合cookies登录、表单提交、json数据包来完成整个数据爬取过程,无需书写复杂的xpath、css路径甚至繁琐的正则表达式(尽管这三个技能对于数据爬取而言意义非凡)。之前已经演练过如何使用httr来完成网易云课堂的课程爬取,其中用到POST方法和表单提交。今天爬取...

发表了文章 • 2017-10-16 13:49 • 0 条评论

1
推荐
2007
阅读

左手用R右手Python系列13——字符串处理与正则表达式

学习数据分析,掌握一些灵巧的分析工具可以使得数据清洗效率事半功倍,比如在处理非结构化的文本数据时,如果能够了解一下简单的正则表达式,那么你可以免去大量的冗余代码,效率那叫一个高。正则表达式是一套微型的袖珍语言,非常强大,依靠一些特定的字母和符号作为匹配模式,灵活组合,可以匹配出任何我们需要的的文...

发表了文章 • 2017-10-12 15:37 • 0 条评论

0
推荐
2032
阅读

空间数据可视化笔记——simple features空间对象基础

是不是感觉被封面图和不明觉厉的题目给骗进来了哈哈哈,今天这篇是理论篇,没有多少案例,而且还很长,所以静不下心的小伙伴儿可以先收藏着,时间充裕了再看。当今互联网和大数据发展的如此迅猛,大量的运营与业务数据需要通过可视化呈现来给商业分析人员提供有价值的决策信息,而地理信息与空间数据可视化则是可视化分...

发表了文章 • 2017-10-12 15:36 • 0 条评论

0
推荐
2463
阅读

shiny动态仪表盘应用——中国世界自然文化遗产可视化案例

这一篇很早就想写了,一直拖到现在都没写完。虽然最近的社交网络上娱乐新闻热点特别多,想用来做可视化分析的素材简直多到不可想象,但是我个人一向不追星,对明星热文和娱乐类的新闻兴趣不是很大。还是更愿意把自己的精力贡献在那些不起眼的,然而却更能触动我们心灵与文化内涵的素材上来。今天要写的主题中国的世界遗...

发表了文章 • 2017-10-12 15:35 • 0 条评论

1
推荐
2145
阅读

ggplot2高阶案例应用——中国家庭金融资产配置变化

今天浏览新闻,看到一个关于美国居民家庭金融资产配置的调查,主要介绍1974年~2016年美国居民和非居民部门家庭金融资产配置比例分布演变的数据。数据显示,在所统计的现金和活期存款、定期存款、养老基金、保险计划、共同基金和货币基金中。1974年,一个典型公民把8%的金融资产放在现金和活期存款,35%放在定期存款,0.1...

发表了文章 • 2017-10-12 15:32 • 0 条评论

0
推荐
1624
阅读

左手用R右手Python系列12——空间数据可视化与数据地图

以前我一直觉得Python的绘图工具与R语言ggplot2比起来,不够优雅,这也是我一直坚定的选择使用R+ggplot2深入的学习数据可视化的原因,ggplot2在坐标系的整合与兼容性和扩展性上确实技高一筹,所以ggplot2成了可视化的巨无霸,成了可视化界的微信,不仅自身生态日趋完善,而且还有众多的开发者为其开发辅助功能包(你可以...

发表了文章 • 2017-09-22 11:40 • 0 条评论

0
推荐
1335
阅读

快来给这个图表起个名字吧~

我一直觉得,一门语言的学习一定要打牢基础,只有基础足够牢固,后期你无论选择哪个方向才会走的一路顺风。这是我学习R语言将近一年的深刻体会,当初自己也经历过各种急功近利、自我陶醉的状态,当时没有任何人引导,也没怎么正儿八经的学过一门体系健全的教程,硬生生的一直刷题,就这么一路撑过来来了,也算是勉强越过...

发表了文章 • 2017-09-18 10:11 • 0 条评论

0
推荐
2388
阅读

左手用R右手Python系列11——相关性分析

由于最近毕业论文缠身,一直都没有太多时间和精力撰写长篇的干货,但是呢学习的的脚步不能停止,今天跟大家盘点一下R语言与Python中到的相关性分析部分的常用函数。常用的衡量随机变量相关性的方法主要有三种:pearson相关系数;即皮尔逊相关系数,用于横向两个连续性随机变量间的相关系数。spearman相关系数;即斯皮尔...

发表了文章 • 2017-09-18 10:02 • 1 条评论

0
推荐
1337
阅读

仿经济学人——矩阵气泡图

本篇文章案例来源于经济学人2013年一幅关于家庭支出结构与国家间的交叉对比图。该图信息量相当丰富,至少涵盖了四个维度的信息,支出结构信息(类别型字段)、国别信息(类别型字段)、支出水平分类(类别型字段)、支出规模(数值型指标)等。倘若使用ggplot进行绘制,思路非常简单,仅通过散点图层皆可完成,ggplot2的...

发表了文章 • 2017-09-18 09:58 • 0 条评论

0
推荐
2580
阅读

左手用R右手Python系列10——统计描述与列联分析

数据统计描述与列联表分析是数据分析人员需要掌握的基础核心技能,R语言与Python作为优秀的数据分析工具,在数值型数据的描述,类别型变量的交叉分析方面,提供了诸多备选方法。这里根据我们平时对于数据结构的分类习惯,按照数值型和类别型变量分别给大家盘点一下R与Python中那些简单使用的分析函数。R语言:描述性统计...

发表了文章 • 2017-09-11 10:07 • 0 条评论

0
推荐
1672
阅读

ggplot2玫瑰图案例——星巴克门店分布图

使用ggplot2制作放射状玫瑰图本不是什么难事,仅需将普通单序列柱形图添加添加一个极坐标转化参数即可。但是遇到比较小清新的案例,还是值得手动操作一下的。本文图片案例来源于DT财经关于星巴克门店分布TOP20城市分布数据图,用色和呈现形式比较友好,所以就信手拿来作为案例分享给大家。原图中并未给出任何实际数据(...

发表了文章 • 2017-09-08 10:24 • 0 条评论