1
推荐
1714
阅读

左手用R右手Python系列——面向对象编程基础

面向对象编程是程序设计中一种重要且高效的编程规范,它区别于常见的面向过程编程。在R语言以及Python的程序包开发过程中,大量使用了面向对象的编程范式。百度百科关于面向对象编程的权威解释是:面向对象程序设计(英语:Object-oriented programming,缩写:OOP)是一种程序设计范型,同时也是一种程序开发的方法。其...

发表了文章 • 2017-12-25 15:43 • 0 条评论

4
推荐
1684
阅读

左手用R右手Python系列——多进程/线程数据抓取与网页请求

这一篇涉及到如何在网页请求环节使用多进程任务处理功能,因为网页请求涉及到两个重要问题:一是多进程的并发操作会面临更大的反爬风险,所以面临更严峻的反爬风险,二是抓取网页数据需要获取返回值,而且这些返回值需要汇集成一个关系表(数据框)(区别于上一篇中的二进制文件下载,文件下载仅仅执行语句块命令即可,...

发表了文章 • 2017-12-19 10:42 • 0 条评论

0
推荐
1587
阅读

左手用R右手Python系列——使用多进程进行任务处理

数据抓取中的密集任务处理,往往会涉及到性能瓶颈,这时候如果能有多进程的工具来进行支持,那么往往效率会提升很多。今天这一篇分享在R语言、Python中使用调用多进程功能进行二进制文件下载。导入待下载的文件:library("dplyr") mydata

发表了文章 • 2017-12-19 10:29 • 0 条评论

0
推荐
1784
阅读

ggplot2双坐标轴的解决方案

本来没有打算写这一篇的,因为在一幅图表中使用双坐标轴确实不是一个很好地习惯,无论是信息传递的效率还是数据表达的准确性而言。但是最近有好几个小伙伴儿跟我咨询关于ggplot2的次坐标轴问题,平时的一些业务分析中,有些场景出于数据呈现的需要,或者阅读习惯等,往往需要在一幅图中呈现两个量级不等的坐标。所以我觉...

发表了文章 • 2017-12-11 10:39 • 0 条评论

0
推荐
1190
阅读

MySQL数据库基础——本地文件交互

从这一篇开始,大概会花四五篇的内容篇幅,归纳整理一下之前学过的SQL数据库,一来可以为接下来数据分析工作提前巩固基础,二来把以前学的SQL内容系统化、结构化。今天这一篇仅涉及MySQL与本地文本文件的导入导出操作,暂不涉及主要查询语言以及MySQL与R语言和Python的交互。平台使用Navicat Premium(当然你也可以使用M...

发表了文章 • 2017-12-05 10:10 • 0 条评论

0
推荐
1552
阅读

左手用R右手Python系列之——noSQL基础与mongodb入门

12月的第一天,祝所有小伙伴儿的12月都能够被温柔以待。能在学校悠哉写推送的日子所剩不多了,为了珍惜剩下所剩不多的推送机会,打算12月写一些实践性强一些的内容,比如数据库(包括关系型的和noSQL)。前段时间一直在探索数据抓取的内容,那么现在问题来了,抓完数据如何存储呢?保存成本地文件是一种方案,但是借助关...

发表了文章 • 2017-12-05 09:59 • 0 条评论

1
推荐
1351
阅读

左手用R右手Python系列之——迭代器与迭代对象

接触过Python的小伙伴儿肯定都知道,Python中关于迭代器和可迭代对象运用的很广泛。迭代器可以以一种非常友好的方式使用在循环中,不仅节省内存,还能优化代码。在R语言中,其实也有迭代的概念,但是需要借助第三方包的辅助。今天要介绍的包是iterators和itertools,这两个包在最新开发的软件包工具中使用的非常频繁。迭...

发表了文章 • 2017-11-29 11:10 • 0 条评论

2
推荐
1536
阅读

这种自带黑科技的R包,请给我来一打

今天要介绍的这个R包,有些特别!它即不能做可视化,也不能用来抓数据!它的核心功能是抓拍,对,你没听错,就是抓取,和狗仔差不多!而且专门抓拍网页,有点儿类似于我们常说的网页快照。底层仍然是通过plantomjs无头浏览器提供渲染支持,所以它可以解析带有js动态脚本的异步加载网页。它抓拍功能强大的什么地步,基本...

发表了文章 • 2017-11-22 15:27 • 0 条评论

1
推荐
1596
阅读

这个包绝对值得你用心体验一次!

这一段时间在研究R里面的数据抓取相关包,时不时的能发掘出一些惊喜。比如今天,我找到了一个自带请求器的解析包,而且还是嵌入的pantomjs无头浏览器,这样就不用你再傻乎乎的再去装个selenium驱动,也不用借助任何请求器(RCurl或者httr)包就可以自动解析带有js脚本的HTML文档。耳听为虚,眼见为实,还记得之前讲解表...

发表了文章 • 2017-11-22 15:13 • 0 条评论

0
推荐
1641
阅读

扒一扒rvest的前世今生!

rvest包可能是R语言中数据抓取使用频率最高的包了,它的知名度和曝光度在知乎的数据分析相关帖子和回答中都很高。甚至很多爬虫教程和数据分析课程在讲解R语言网络数据抓取时,也大多以该包为主。坦白的说,rvest的确是一个很好地数据抓取工具,不过他的强项更多在于网页解析,这一点儿之前就有说到。你可能惊艳于rvest强...

发表了文章 • 2017-11-22 14:57 • 0 条评论

1
推荐
1948
阅读

RCurl中这么多get函数,是不是一直傻傻分不清!!!

你想知道R语言中的RCurl包中一共有几个get开头的函数嘛,今天我特意数了一下,大约有十四五个那么多(保守估计)!所以如果对这个包了解不太深入的话,遇到复杂的数据爬取需求,自然是摸不着头脑,心碎一地~_~实际上很多我们都不常用,常用的不超过五个,而且这些函数命名都很有规律,一般是类似功能的名称中都有统一的...

发表了文章 • 2017-11-22 14:44 • 0 条评论

1
推荐
2779
阅读

R语言数据清洗实战—高效list解析方案

list是R语言中包容性最强的数据对象,几乎可以容乃所有的其他数据类型。但是包容性最强也也意味着他对于内部子对象的类型限制最少,甚至内部可以存在递归结构,这样给我们提取数据带来了很大的困难。如果你对R语言的list结构非常熟悉,又熟练控制流等函数的操作,自然可以通过构建循环来完成目标数据的提取。但是在数据...

发表了文章 • 2017-11-13 17:13 • 0 条评论

0
推荐
1694
阅读

左手用R右手Python系列——异常捕获与容错处理

一套稳健的代码体系,必须能够包容所有可能出现的错误情况并做出针对性处理,要想达到这个目标,务必要对异常捕获与容错处理有深入的了解和认识。秉着初学者入门探索的心态,接下来的两篇我会陆续跟大家分享R语言与Python中所涉及到的主要异常捕获与容错处理机制。今天先分享异常及其捕获手段,下一篇会综合实战应用讲解...

发表了文章 • 2017-11-13 17:02 • 0 条评论

1
推荐
1689
阅读

R语言网络数据抓取的又一个难题,终于攻破了!

单纯从数据抓取的逻辑来讲(不谈那些工程上的可用框架),个人觉得R语言中现有的请求库中,RCurl和httr完全可以对标Python中的urllib和reuqests(当然py中在错误处理和解析框架上显得更为专业!)。我们经常使用的网络数据抓取需求,无非两种:要么伪造浏览器请求要么驱动浏览器请求对于伪造浏览器请求而言,虽然请求定义...

发表了文章 • 2017-11-13 16:58 • 0 条评论

0
推荐
2017
阅读

商务图表案例——仿经济学人分组漏斗图~

今天看到一个看着挺养眼的经济学人图表案例,于是职业病爆发了,用ggplot2按照自己的思路写了一遍。现在把代码思路分享给大家!加载包:library("ggplot2")library("tidyr")library("magrittr")library("dplyr")library("showtext")library("Cairo") font_add("myfont","msyh.ttc")构造原始数据:mydata<-data.frame(...

发表了文章 • 2017-11-13 16:56 • 0 条评论