数据小魔方

杜雨,EasyCharts团队成员,EasyCharts公众号及知乎专栏特约撰稿人。R语言中文社区专栏作者,微信公众号——“数据小魔方”创始人。兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。每天会为您推送Excel商务图表、R语言可视化及数据可视化精彩案例。 个人公众号:数据小魔方(微信ID:datamofang)

0
推荐
1578
阅读

左手用R右手Python系列——使用多进程进行任务处理

数据抓取中的密集任务处理,往往会涉及到性能瓶颈,这时候如果能有多进程的工具来进行支持,那么往往效率会提升很多。今天这一篇分享在R语言、Python中使用调用多进程功能进行二进制文件下载。导入待下载的文件:library("dplyr") mydata

发表了文章 • 2017-12-19 10:29 • 0 条评论

0
推荐
2040
阅读

MySQL基础入门——MySQL与R语言、Python交互

MySQL作为z最为流行的关系型数据库管理平台之一,与绝大多数数据分析工具或者编程语言都有接口,今天这一篇分享如何将MySQL与R语言、Python进行连接。R语言中与SQL管理平台通讯的接口包有很多,可以根据自己使用的数据库平台类型以及习惯,挑选合适的接口包。因为我个人笔记本使用的MySQL平台,所以本篇仅以MySQL为例分...

发表了文章 • 2017-12-12 14:28 • 0 条评论

0
推荐
1251
阅读

MySQ基础入门系列之——字符与日期数据处理

今天这一篇分享MySQL中的字符串处理工具与日期时间处理,这一部分内容虽然看似不多,但是往往是输出处理中的的痛点。我的MySQL数据库中已经建好了一个包含两列日期与一列薪资范围字段。(深感通过R或者Python建表然后写入MySQL的效率要比使用MySQL自己的编辑器写方便!)MySQL中的日期与时间操作涉及到的函数相当多,实...

发表了文章 • 2017-12-11 10:50 • 0 条评论

0
推荐
1775
阅读

ggplot2双坐标轴的解决方案

本来没有打算写这一篇的,因为在一幅图表中使用双坐标轴确实不是一个很好地习惯,无论是信息传递的效率还是数据表达的准确性而言。但是最近有好几个小伙伴儿跟我咨询关于ggplot2的次坐标轴问题,平时的一些业务分析中,有些场景出于数据呈现的需要,或者阅读习惯等,往往需要在一幅图中呈现两个量级不等的坐标。所以我觉...

发表了文章 • 2017-12-11 10:39 • 0 条评论

0
推荐
1799
阅读

左手用R右手Python系列——动态网页抓取与selenium驱动浏览器

关于基础的网络数据抓取相关内容,本公众号已经做过很多次分享,特别是R语言的爬虫框架(RCurl+XML/httr+rvest[xml2+selectr])已经形成了较为丰富的教程系统。但是所有这些都是基于静态页面的(抓包与API访问的除外),很多动态网页不提供API访问,这样就只能寄希望于selenium这种基于浏览器驱动技术来完成。好在R语言...

发表了文章 • 2017-12-11 09:57 • 0 条评论

0
推荐
1581
阅读

左手用R右手Python系列——七周数据分析师学习笔记R语言、Python版

上一篇我重点写了秦路老师在七周数据分析师系列课程中MySQL模块的实战作业SQL语法,对比了自己的冗余思路与老师的最佳思路。MySQL入门学习笔记——七周数据分析师实战作业这一篇,仍然是相同的六个业务问题,我尝试着R语言、Python复盘一遍,这样你可以对比同样的业务逻辑,使用不同工具处理之间的效率、逻辑的差异,以及...

发表了文章 • 2017-12-08 10:54 • 0 条评论

4
推荐
2839
阅读

MySQL入门学习笔记——七周数据分析师实战作业

本篇推送主要涉及SQL语言中较为复杂的子查询与函数嵌套。虽然这个MySQL系列取名为MySQL基础入门,但是个人不打算做单个函数的用法总结,或者说简单罗列,(这些内容你可以通过很多途径了解)因为一方面以前有过SQL基础方面的学习经历(本科的计算机必修课以及计算机等级考试)现在应该更加深入一些,另一方面SQL是一门数...

发表了文章 • 2017-12-07 15:43 • 0 条评论

0
推荐
1183
阅读

MySQL数据库基础——本地文件交互

从这一篇开始,大概会花四五篇的内容篇幅,归纳整理一下之前学过的SQL数据库,一来可以为接下来数据分析工作提前巩固基础,二来把以前学的SQL内容系统化、结构化。今天这一篇仅涉及MySQL与本地文本文件的导入导出操作,暂不涉及主要查询语言以及MySQL与R语言和Python的交互。平台使用Navicat Premium(当然你也可以使用M...

发表了文章 • 2017-12-05 10:10 • 0 条评论

0
推荐
1539
阅读

左手用R右手Python系列之——noSQL基础与mongodb入门

12月的第一天,祝所有小伙伴儿的12月都能够被温柔以待。能在学校悠哉写推送的日子所剩不多了,为了珍惜剩下所剩不多的推送机会,打算12月写一些实践性强一些的内容,比如数据库(包括关系型的和noSQL)。前段时间一直在探索数据抓取的内容,那么现在问题来了,抓完数据如何存储呢?保存成本地文件是一种方案,但是借助关...

发表了文章 • 2017-12-05 09:59 • 0 条评论

0
推荐
2894
阅读

左手用R右手Python系列之——数据框与apply向量运算

R语言与Python中的apply函数都有着丰富的应用场景,恰到好处的使用apply函数,可以避免在很多场景下书写冗余的代码,这不仅能提高代码可读性,而且提高代码执行的效率。apply(X, MARGIN, FUN, ...) X        #一个数组(包括矩阵)MARGIN   #一个给定下标的向量,将被指定函数执行计算1代表行...

发表了文章 • 2017-11-30 16:42 • 0 条评论

1
推荐
1345
阅读

左手用R右手Python系列之——迭代器与迭代对象

接触过Python的小伙伴儿肯定都知道,Python中关于迭代器和可迭代对象运用的很广泛。迭代器可以以一种非常友好的方式使用在循环中,不仅节省内存,还能优化代码。在R语言中,其实也有迭代的概念,但是需要借助第三方包的辅助。今天要介绍的包是iterators和itertools,这两个包在最新开发的软件包工具中使用的非常频繁。迭...

发表了文章 • 2017-11-29 11:10 • 0 条评论

0
推荐
1959
阅读

左手用R右手Python系列之——json序列化与反序列化

json格式数据作为如今越来越流行的数据交换格式,几乎已经成为web端数据交互的标准,主流的数据科学语言R,Python都中都有非常完善的半结构化数据与json数据进行通讯。本篇文章将会通过简单案例介绍R语言与Python中与json数据进行序列化与反序列化的常用函数。json的数据以键值对形式存在,在R语言中,符合此标准的就是...

发表了文章 • 2017-11-29 11:02 • 0 条评论

2
推荐
1523
阅读

这种自带黑科技的R包,请给我来一打

今天要介绍的这个R包,有些特别!它即不能做可视化,也不能用来抓数据!它的核心功能是抓拍,对,你没听错,就是抓取,和狗仔差不多!而且专门抓拍网页,有点儿类似于我们常说的网页快照。底层仍然是通过plantomjs无头浏览器提供渲染支持,所以它可以解析带有js动态脚本的异步加载网页。它抓拍功能强大的什么地步,基本...

发表了文章 • 2017-11-22 15:27 • 0 条评论

1
推荐
1585
阅读

这个包绝对值得你用心体验一次!

这一段时间在研究R里面的数据抓取相关包,时不时的能发掘出一些惊喜。比如今天,我找到了一个自带请求器的解析包,而且还是嵌入的pantomjs无头浏览器,这样就不用你再傻乎乎的再去装个selenium驱动,也不用借助任何请求器(RCurl或者httr)包就可以自动解析带有js脚本的HTML文档。耳听为虚,眼见为实,还记得之前讲解表...

发表了文章 • 2017-11-22 15:13 • 0 条评论

0
推荐
1628
阅读

扒一扒rvest的前世今生!

rvest包可能是R语言中数据抓取使用频率最高的包了,它的知名度和曝光度在知乎的数据分析相关帖子和回答中都很高。甚至很多爬虫教程和数据分析课程在讲解R语言网络数据抓取时,也大多以该包为主。坦白的说,rvest的确是一个很好地数据抓取工具,不过他的强项更多在于网页解析,这一点儿之前就有说到。你可能惊艳于rvest强...

发表了文章 • 2017-11-22 14:57 • 0 条评论