3
推荐
1815
阅读

左右用R右手Pyhon系列——趣直播课程抓取实战

本文将以趣直播课程信息数据抓取为例,展示如何使用RCurl进行结合浏览器抓包操作进行简易数据抓取。library("RCurl") livrary("XML")library("rlist")library("dplyr")library("jsonlite")按照常规的操作步骤,数据抓取首先应该通过浏览器后台确认该目标网页所使用的框架和请求类型,确认网站是否提供了api访问接口,如...

发表了文章 • 2017-10-30 10:57 • 0 条评论

0
推荐
1407
阅读

用R语言照葫芦画瓢撸了一个简易代理~

最近正在刻苦的学习爬虫,陆陆续续的学习了正则表达式、xpath、css表达式,基本可以胜任R语言中的RCurl+XML、httr+rvest组合爬虫的需求,对GET请求和POST请求的构造和表单提交以及浏览器抓包、模拟登陆、异步加载也做了一些梳理,因为爬虫知识的通用性,所以在入门Python阶段直接就开始练习urllib+lxml、requests+Beauti...

发表了文章 • 2017-10-30 10:53 • 0 条评论

0
推荐
2230
阅读

R语言数据抓取实战—RCurl+XML组合与XPath解析

经常有小伙伴儿跟我咨询,在使用R语言做网络数据抓取时,遇到空值和缺失值或者不存在的值,应该怎么办。因为我们大多数场合从网络抓取的数据都是关系型的,需要字段和记录一一对应,但是html文档的结构千差万别,代码纷繁复杂,很难保证提取出来的数据开始就是严格的关系型,需要做大量的缺失值、不存在内容的判断。如果...

发表了文章 • 2017-10-30 10:50 • 0 条评论

1
推荐
1871
阅读

左手用R右手Python系列17——CSS表达式与网页解析

上一篇着重讲解了网页解析中的XPath表达式,今天这一篇主要讲解另一套网页解析语法——CSS路径表达式。R语言与Python中都有支持CSS表达式的解析库,R语言中以rvest包为主进行讲解,Python中为BeautifulSoup为主进行讲解。本篇讲解内容实战网页时我的天善社区博客主页,网址如下:https://ask.hellobi.com/blog/datamofang/...

发表了文章 • 2017-10-23 10:16 • 0 条评论

0
推荐
2149
阅读

左手用R右手Python系列16——XPath与网页解析库

最近写了不少关于网页数据抓取的内容,大多涉及的是网页请求方面的,无论是传统的RCurl还是新锐大杀器httr,这两个包是R语言中最为主流的网页请求库。但是整个数据抓取的流程中,网页请求仅仅是第一步,而请求获取到网页之后,数据是嵌套在错综复杂的html/xml文件中的,因而需要我们熟练掌握一两种网页解析语法。RCurl包...

发表了文章 • 2017-10-23 10:06 • 0 条评论

0
推荐
2260
阅读

左手用R右手Python系列15——模拟登陆教务系统

最近在练习R语言与Python的网络数据抓取内容,遇到了烦人的验证码问题,走了很多弯路,最终总算解决了。在分享这篇文章之前,只想感慨一声,虽然Python拥有更为完善的爬虫生态和多如牛毛的爬虫分享课程,但是貌似这些大部分内容,使用R语言中的RCurl+httr都可以做到,但是可惜的利用R语言学习爬虫的爱好者与Pythoner相比...

发表了文章 • 2017-10-23 09:59 • 0 条评论

2
推荐
1983
阅读

R语言数据清洗实战—世界濒危遗产地数据爬取案例

最近重复新翻阅R语言领域唯一一本关于网络数据采集的参考书——《基于R语言的自动数据收集》,开篇就是一个数据爬取的案例。尽管之前已经粗略的看过一遍,但是仍感书中诸多细节不甚理解,还有平时过于眼高手低,第一遍看的时候只是动眼却不动手,案例几乎很少做过,准备刷第二遍,案例也打算仔仔细细的过一遍,做的时候才...

发表了文章 • 2017-10-17 11:04 • 0 条评论

0
推荐
2394
阅读

R语言爬虫实战—知乎live课程数据爬取实战

本文是一篇R语言爬虫实战练习篇,同样使用httr包来完成,结合cookies登录、表单提交、json数据包来完成整个数据爬取过程,无需书写复杂的xpath、css路径甚至繁琐的正则表达式(尽管这三个技能对于数据爬取而言意义非凡)。之前已经演练过如何使用httr来完成网易云课堂的课程爬取,其中用到POST方法和表单提交。今天爬取...

发表了文章 • 2017-10-16 13:49 • 0 条评论

1
推荐
2012
阅读

左手用R右手Python系列13——字符串处理与正则表达式

学习数据分析,掌握一些灵巧的分析工具可以使得数据清洗效率事半功倍,比如在处理非结构化的文本数据时,如果能够了解一下简单的正则表达式,那么你可以免去大量的冗余代码,效率那叫一个高。正则表达式是一套微型的袖珍语言,非常强大,依靠一些特定的字母和符号作为匹配模式,灵活组合,可以匹配出任何我们需要的的文...

发表了文章 • 2017-10-12 15:37 • 0 条评论

0
推荐
1627
阅读

左手用R右手Python系列12——空间数据可视化与数据地图

以前我一直觉得Python的绘图工具与R语言ggplot2比起来,不够优雅,这也是我一直坚定的选择使用R+ggplot2深入的学习数据可视化的原因,ggplot2在坐标系的整合与兼容性和扩展性上确实技高一筹,所以ggplot2成了可视化的巨无霸,成了可视化界的微信,不仅自身生态日趋完善,而且还有众多的开发者为其开发辅助功能包(你可以...

发表了文章 • 2017-09-22 11:40 • 0 条评论

0
推荐
1338
阅读

快来给这个图表起个名字吧~

我一直觉得,一门语言的学习一定要打牢基础,只有基础足够牢固,后期你无论选择哪个方向才会走的一路顺风。这是我学习R语言将近一年的深刻体会,当初自己也经历过各种急功近利、自我陶醉的状态,当时没有任何人引导,也没怎么正儿八经的学过一门体系健全的教程,硬生生的一直刷题,就这么一路撑过来来了,也算是勉强越过...

发表了文章 • 2017-09-18 10:11 • 0 条评论

0
推荐
2392
阅读

左手用R右手Python系列11——相关性分析

由于最近毕业论文缠身,一直都没有太多时间和精力撰写长篇的干货,但是呢学习的的脚步不能停止,今天跟大家盘点一下R语言与Python中到的相关性分析部分的常用函数。常用的衡量随机变量相关性的方法主要有三种:pearson相关系数;即皮尔逊相关系数,用于横向两个连续性随机变量间的相关系数。spearman相关系数;即斯皮尔...

发表了文章 • 2017-09-18 10:02 • 1 条评论

0
推荐
1340
阅读

仿经济学人——矩阵气泡图

本篇文章案例来源于经济学人2013年一幅关于家庭支出结构与国家间的交叉对比图。该图信息量相当丰富,至少涵盖了四个维度的信息,支出结构信息(类别型字段)、国别信息(类别型字段)、支出水平分类(类别型字段)、支出规模(数值型指标)等。倘若使用ggplot进行绘制,思路非常简单,仅通过散点图层皆可完成,ggplot2的...

发表了文章 • 2017-09-18 09:58 • 0 条评论

0
推荐
2583
阅读

左手用R右手Python系列10——统计描述与列联分析

数据统计描述与列联表分析是数据分析人员需要掌握的基础核心技能,R语言与Python作为优秀的数据分析工具,在数值型数据的描述,类别型变量的交叉分析方面,提供了诸多备选方法。这里根据我们平时对于数据结构的分类习惯,按照数值型和类别型变量分别给大家盘点一下R与Python中那些简单使用的分析函数。R语言:描述性统计...

发表了文章 • 2017-09-11 10:07 • 0 条评论

0
推荐
1674
阅读

ggplot2玫瑰图案例——星巴克门店分布图

使用ggplot2制作放射状玫瑰图本不是什么难事,仅需将普通单序列柱形图添加添加一个极坐标转化参数即可。但是遇到比较小清新的案例,还是值得手动操作一下的。本文图片案例来源于DT财经关于星巴克门店分布TOP20城市分布数据图,用色和呈现形式比较友好,所以就信手拿来作为案例分享给大家。原图中并未给出任何实际数据(...

发表了文章 • 2017-09-08 10:24 • 0 条评论