1
推荐
6174
阅读

Python可视化笔记之folium交互地图

leftlet给R语言提供了很好用的交互式动态地图接口,其在Python中得API接口包名为folium(不知道包作者为何这样起名字,和leaflet已经扯不上关系了),可以满足我们平时常用的热力图、填充地图、路径图、散点标记等高频可视化场景。关于folium在热力图上的用法,可以参考这一篇分享:使用Python中的folium包创建热力密度...

发表了文章 • 2018-08-02 16:11 • 0 条评论

0
推荐
1776
阅读

左手用R右手Python系列——动态网页抓取与selenium驱动浏览器

关于基础的网络数据抓取相关内容,本公众号已经做过很多次分享,特别是R语言的爬虫框架(RCurl+XML/httr+rvest[xml2+selectr])已经形成了较为丰富的教程系统。但是所有这些都是基于静态页面的(抓包与API访问的除外),很多动态网页不提供API访问,这样就只能寄希望于selenium这种基于浏览器驱动技术来完成。好在R语言...

发表了文章 • 2017-12-11 09:57 • 0 条评论

0
推荐
1553
阅读

左手用R右手Python系列——七周数据分析师学习笔记R语言、Python版

上一篇我重点写了秦路老师在七周数据分析师系列课程中MySQL模块的实战作业SQL语法,对比了自己的冗余思路与老师的最佳思路。MySQL入门学习笔记——七周数据分析师实战作业这一篇,仍然是相同的六个业务问题,我尝试着R语言、Python复盘一遍,这样你可以对比同样的业务逻辑,使用不同工具处理之间的效率、逻辑的差异,以及...

发表了文章 • 2017-12-08 10:54 • 0 条评论

0
推荐
2866
阅读

左手用R右手Python系列之——数据框与apply向量运算

R语言与Python中的apply函数都有着丰富的应用场景,恰到好处的使用apply函数,可以避免在很多场景下书写冗余的代码,这不仅能提高代码可读性,而且提高代码执行的效率。apply(X, MARGIN, FUN, ...) X        #一个数组(包括矩阵)MARGIN   #一个给定下标的向量,将被指定函数执行计算1代表行...

发表了文章 • 2017-11-30 16:42 • 0 条评论

0
推荐
1942
阅读

左手用R右手Python系列之——json序列化与反序列化

json格式数据作为如今越来越流行的数据交换格式,几乎已经成为web端数据交互的标准,主流的数据科学语言R,Python都中都有非常完善的半结构化数据与json数据进行通讯。本篇文章将会通过简单案例介绍R语言与Python中与json数据进行序列化与反序列化的常用函数。json的数据以键值对形式存在,在R语言中,符合此标准的就是...

发表了文章 • 2017-11-29 11:02 • 0 条评论

0
推荐
2087
阅读

异步加载的基本逻辑与浏览器抓包一般流程

本篇内容不涉及任何R语言或者Python代码实现,仅从异步加载的逻辑实现过程以及浏览器抓包分析的角度来给大家分享一下个人近期学习爬虫的一些心得。涉及到的工具有Chrome浏览器(开发者工具)、postman(一款非常优秀的Chrome网络请求构造工具,你可以在Chrome浏览器在线商店里搜到,也可以下载桌面版)。1、异步加载概念及...

发表了文章 • 2017-11-17 16:43 • 0 条评论

0
推荐
2114
阅读

左手用R右手Python系列之—表格数据抓取之道

在抓取数据时,很大一部分需求是抓取网页上的关系型表格。对于表格而言,R语言和Python中都封装了表格抓取的快捷函数,R语言中XML包中的readHTMLTables函数封装了提取HTML内嵌表格的功能,rvest包的read_table()函数也可以提供快捷表格提取需求。Python中read_html同样提供直接从HTML中抽取关系表格的功能。HTML语法中内...

发表了文章 • 2017-11-17 16:38 • 0 条评论

0
推荐
1790
阅读

XML/HTML/JSON——数据抓取过程中不得不知的几个概念

之前写了很多网络数据数据抓取的案例,无论是关于R语言还是Python的,里面大量使用xml\html\css\ajax\json等这些概念,可是一直没有对这些概念做详细的梳理,导致很多小伙伴儿看的摸不着头脑。近期基础的网抓教程告一段落,从今天起,给大家梳理一些常用的web概念(当然是一个外行小白的视角来进行讲解,如有不当之处,...

发表了文章 • 2017-11-17 16:34 • 0 条评论

1
推荐
1839
阅读

左手用R右手Python系列——任务进度管理

一直觉得运行代码的时候,如果有一个提示任务运行进度的进度条提示就好,很多时候我们的程序运行时间普遍较长,如果程序运行没有任何提示,那简直是一场噩梦,根本不知道到底是程序在偷懒还是真的卡住了,而如果再代码里写print函数,循环较多的话,你的屏幕会被打印的提示文本瞬间刷屏。后来经过搜索,还真让我发现了解...

发表了文章 • 2017-10-31 14:37 • 0 条评论

1
推荐
1652
阅读

左手用R右手Python—CSS网页解析实战

之前我陆陆续续写了几篇介绍在网页抓取中CSS和XPath解析工具的用法,以及实战应用,今天这一篇作为系列的一个小结,主要分享使用R语言中Rvest工具和Python中的requests库结合css表达式进行html文本解析的流程。css和XPath在网页解析流程中各有优劣,相互结合、灵活运用,会给网络数据抓取的效率带来很大提升!R语言:lib...

发表了文章 • 2017-10-30 10:52 • 0 条评论

0
推荐
1835
阅读

Python网络数据抓取实战——Xpath解析豆瓣书评

前两篇我详细的讲解了CSS和XPath表达式在网页解析中的用法,但是都是以列举和解释为主,并没有用于解决实战问题,今天这一篇,我使用urllib+lxml工具组合,结合XPath表达式来做一个小案例。该案例是刘顺祥大神【公众号:每天进步一点点】中使用的爬虫实战案例,他用的request+BeautifulSoup,这样刚好扩展下XPath的用法...

发表了文章 • 2017-10-30 10:47 • 0 条评论

0
推荐
2425
阅读

左手用R右手Python系列14—日期与时间处理

日期与时间格式数据处理通常在数据过程中要相对复杂一些,因为其不仅涉及到不同国家表示方式的差异,本身结构也较为复杂,在R语言和Python中,存在着不止一套方法来处理日期与时间,因而做一个清洗的梳理与对比将会很有价值。本文针对R语言与Python中常用日期与时间函数进行简要对比介绍,力求简单明了,覆盖常用的处理...

发表了文章 • 2017-10-23 09:55 • 0 条评论

0
推荐
2474
阅读

一言不合就爬虫系列之——爬取小姐姐的秒拍MV

大连的盛夏实在是热的让人心烦(对于我这种既怕热又怕冷的真的没地呆了)。再加上令人头疼的毕业论文,这种日子怎能缺少MV来解暑呢。既然要听,怎么只听一首呢,既然学了爬虫怎么让技能荒废呢。好吧,烦躁的心情+想听MV的冲动+爬虫技能,今天小魔方教叫你使用R语言批量爬取秒拍小姐姐的清凉MV短片。http://www.miaopai.c...

发表了文章 • 2017-07-12 14:48 • 0 条评论

0
推荐
2003
阅读

左手用R右手Python系列——数据合并与追加

今天这篇跟大家介绍R语言与Python数据处理中的第二个小知识点——数据合并与追加。针对数据合并与追加,R与Python中都有对应的函数可以快速完成需求,根据合并与追加的使用场景,这里我将本文内容分成三部分:数据合并(简单合并,无需匹配)数据合并(匹配合并)数据追加数据合并(简单合并,无需匹配)针对简单合并而言...

发表了文章 • 2017-06-30 11:09 • 0 条评论

0
推荐
2100
阅读

左右用R右手Python系列——字符串格式化输出

学习Python不到一个月,虽然学的很渣,但是还是想通过这种途径分享自己的学习心得,毕竟当初学习R语言也是这么走过来的。今天是R语言与Python综合系列的第一篇,就聊一聊两者在常用字符串输出上的差异。为了方便统一案例图片的风格,今天统一在jupyter编辑器中编辑(R和Python)。通常在R语言中我们使用最多的关于字符串...

发表了文章 • 2017-06-30 11:04 • 0 条评论