9
推荐
1817
阅读

勿忘2017,前行2018

    时光荏苒,伴随着朋友圈的雪景,离18年也就更进了一步。总是到年末,才知道时间飞逝,才盼时光不老,你我不散。但无论2017年如何,也都该给它一个答复,或许不是一个完美的句号,可它确实已经悄悄而过。2017总结    对于经常写总结的人来说,可能写个年终总结很简单(也就是对一年的复盘)。但...

发表了文章 • 2018-01-25 22:18 • 10 条评论

0
推荐
1312
阅读

python爬虫之MQL5爬虫

今天中文社区有人要爬MQL5的网站,要和其做的图表一样,这里写上原图和我画的图,代码就不上了~以下是我的图片成长.png结余.png净值.png表格没有做,回归的直线没有做,继续加油!

发表了文章 • 2017-10-12 14:32 • 0 条评论

0
推荐
1448
阅读

Python爬虫之阳光电影爬虫

爬虫分析这里涉及跨页的爬取,需要理清爬虫的思路。首先打开网站,需爬取前11个分类的电影数据(经典影片格式不一样,爬虫时过滤掉了)。进入电影列表页后,正则爬取页数和电影的分类标签,以此构造分页url,然后爬取电影的名字和url。最后在详细页爬取电影的下载地址。代码import requests import re from lxml import ...

发表了文章 • 2017-10-12 14:32 • 0 条评论

0
推荐
1331
阅读

python爬虫之微打赏(scrapy版)

上次写到单线程的微打赏爬虫,知道微打赏需要用post请求,那今天看看如何用scrapy完成post请求。创建项目打开cmd,输入以下代码即可创建scrapy项目。scrapy startproject weidashang cd weidashang scrapy genspider weidashangspider wds.modian.com 第二、三行用于创建spider,这样就不用自己在编辑器中手动新建。item...

发表了文章 • 2017-10-12 14:31 • 0 条评论

0
推荐
1282
阅读

Python爬虫之微打赏爬虫

昨天有学员问我爬虫的问题,说xpath语法写出来没数据。其实可能是其他地方错了,而不是xpath语法的问题,我们需要学会找错误的原因。打印下请求的内容,看有没有你要的数据。没有的话,是不是请求错误。请求成功是不是异步加载。这样一步步排错。今天继续这位学员的问题,他需要爬取微打赏的数据。网站分析打开网站,翻...

发表了文章 • 2017-10-12 14:31 • 0 条评论

1
推荐
1351
阅读

Python爬虫之百度API调用

上次爬取了糗事百科的用户地址,也画了一个段子手分布的地图,今天就讲讲思路,其实也就是如何让地址换为经纬度,因为个人BDP免费版是需要经纬度字段的,今天就调用百度API获取经纬度信息。import requests import json address = input('请输入地点:') par = {'address': address, 'key': 'cb649a25c1f81c1451adbeca73...

发表了文章 • 2017-10-12 14:31 • 0 条评论

0
推荐
1262
阅读

Selenium在异步加载中的应用

简书文章异步加载之前爬虫小分队的第一次作业就是爬取简书七日热门,同学们应该知道部分数据是异步加载的,对于阅读,评论,喜欢的抓取数据策略为使用正则表达式匹配,收录专题就是找包来获取数据的。Selenium代码from selenium import webdriver url = 'http://www.jianshu.com/p/c9bae3e9e252' def get_info(url): ...

发表了文章 • 2017-10-12 14:30 • 0 条评论

0
推荐
1298
阅读

人生若只如初见,何必找包爬数据

爬虫最头疼的就是异步加载和模拟登陆了,我们不禁感慨,要是全部数据都在源代码,那该有多好啊!那今天就讲解下利用Selenium模拟浏览器,让异步加载的东西原形毕露。SeleniumSelenium是一套完整的Web应用程序测试系统,完全由JavaScript编写,因此可运行于任何支持JavaScript的浏览器上。通过pip安装即可。pip3 install ...

发表了文章 • 2017-10-12 14:27 • 0 条评论

0
推荐
1458
阅读

Python爬虫之微博好友圈

数学建模已结束,刚开始的目标就是不熬夜,结果还是熬夜了(QAQ),缓了一天就来写简书了,感觉很久没爬虫了,今天就爬下移动端的微博好友圈信息。代码import requests import json headers = { 'Cookie':'xxxxxxxx', 'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Geck...

发表了文章 • 2017-10-12 14:26 • 0 条评论

0
推荐
1433
阅读

Python爬虫之煎蛋网图片下载

受程序员群的影响(自己污的本性),他们总是带我开车,想想我也该收集一些资料了(美女图片)代码import requests from lxml import etree urls = ['http://jandan.net/ooxx/page-{}'.format(str(i)) for i in range(0,20)] path = 'C://Users/Administrator/Desktop/煎蛋网/' header = { 'User-Agent':'Mozilla/...

发表了文章 • 2017-10-12 14:24 • 0 条评论

0
推荐
1341
阅读

Python爬虫之scrapy跨页面爬取信息

昨天凌晨2点醒了看了下向右奔跑的文章,准备来个scrapy跨页面的数据爬取,以简书七日热门数据为例。1 items.py代码from scrapy.item import Item,Field class SevendayItem(Item): article_url = Field()#文章链接在首页爬取 author = Field() article = Field() date = Field() word = Field() ...

发表了文章 • 2017-10-12 14:24 • 0 条评论

0
推荐
1738
阅读

Python爬虫之简书七日热门数据爬取(异步加载详解)

最近在家干活,好几天没更新了,最近好友程兄也开始写简书了,大家可以多看看,讲的很详细(我毕竟懒);正好碰到他问异步加载的问题,那我今天就已简书七日热门为例,给大家讲讲异步加载的数据怎么爬。异步加载分析1 先看看网页:看上去也没什么特别的地方,但往下拉是这样的:想都不用想,这就是异步加载了,不同于其...

发表了文章 • 2017-10-12 14:22 • 0 条评论

0
推荐
1298
阅读

Python爬虫之多进程爬取(以58同城二手市场为例)

今天以58同城的二手市场为例(也就是转转)给大家介绍一下大规模的结构数据怎么爬取。分析先看下转转的网页结构与我想爬取的数据:类目物品页详细页我的做法是先提取大类目的链接,然后进入爬取物品页的链接,进而爬取详细页的数据,总共建立了3个Python的文件,分别为channel_extract.py,page_spider.py,main.pychann...

发表了文章 • 2017-10-12 14:21 • 0 条评论

0
推荐
1770
阅读

Python爬虫之scrapy从入门到忘记

一、初窥scrapyscrapy中文文档Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬...

发表了文章 • 2017-10-12 14:21 • 0 条评论

0
推荐
1480
阅读

Python爬虫之小猪短租房

前天初步学习了xpath,今天进行一下小练习,爬取小猪短租房北京房源的信息一、xpath爬取分析1 爬取的信息有价格,地点,出租类型,床数量,宜居人数,评分,点评数。2 xpath是先抓大在抓小,找循环点。二、代码import requests from lxml import etree import pymongo client = pymongo.MongoClient('localhost', 27017...

发表了文章 • 2017-10-12 14:20 • 0 条评论