爬虫

爬虫

0
投票
3
已解决
4010
浏览

python爬虫遇到403如何解决?

xiaotaomi 回复了问题 • 2021-07-15 11:20
0
推荐
1360
浏览

打开高德地图的神秘钥匙

作者:Economicoder微信公众号:数据学徒有了高德地图的导航,我们便能踏遍祖国的绿水青山。其实,高德本身也是一座金山银山,蕴藏着丰富的数据资源。至于数据学徒,愿为一枚小小的数据搬运工。想要进入高德这座...

Economicoder 发表了文章 • 2020-12-23 18:44

0
推荐
1145
浏览

一篇文章教会你使用Python网络爬虫下载酷狗音乐

【一、项目背景】现在的听歌软件动不动就是各种付费,要下载软件才能听,当你下载了之后,你会惊奇的发现这首歌还收费,这就让一向喜欢白嫖的小编感到很伤心了。于是,小编冥思苦想,终于让我发现了其中的奥秘,...

dcpeng 发表了文章 • 2020-10-09 21:12

0
推荐
1585
浏览

一篇文章教会你利用Python网络爬虫获取分类图片

【一、项目背景】博海拾贝是一支互联网从业者在线教育的团队,扎根于中国教育行业以及互联网行业的创新和眼球中,打造专业体系化的互联网人在线教育平台。精心创作许多精彩的文章,提供了很多有趣的图片。今天来...

dcpeng 发表了文章 • 2020-09-30 11:32

0
推荐
1333
浏览

一篇文章教会你利用Python网络爬虫成为斗图达人

【一、项目背景】你是否在寻找可以与高手斗图的应用? 你是否在寻找可以自制表情的应用?你是否在寻找最全、最爆笑的表情库?斗图网是一个收集了成千上万的撕逼斗图表情包,在这里你可以快速找到想要的表情, 更好...

dcpeng 发表了文章 • 2020-09-25 16:48

0
推荐
1416
浏览

一篇文章教会你利用Python网络爬虫实现豆瓣电影采集

【一、项目背景】豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想看、在看和看过的电影电视剧 、顺便打分、写影评。极大地方便了人们的生活。今天以电视剧(美剧)为例,批量爬取...

dcpeng 发表了文章 • 2020-08-31 14:50

0
推荐
1213
浏览

手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇

/1 前言/    上篇文章我们谈及了天堂网站图片抓取的理论,这篇文章将针对上篇文章的未尽事宜进行完善,完成图片的批量抓取。/2 图片网址解析/    1. 我们首先来分析一下这个...

dcpeng 发表了文章 • 2020-05-12 13:13

0
推荐
1428
浏览

手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

/1 前言/    平时我们要下载图片,要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片。/2 项目准备工作/ &...

dcpeng 发表了文章 • 2020-05-10 09:27

0
推荐
1690
浏览

数据分析实战---通过爬虫管理社群作业

近期,和小伙伴们一起组织了疯狂数据分析小组,通过有计划的输入,每周总结一篇数据类文章,分别投稿到疯狂数据分析专题,并坚持一年时间,具体计划请看零基础入门数据分析成员的新年计划。可是如何管理作业呢?...

DataFrog 发表了文章 • 2019-08-28 20:57

0
推荐
1909
浏览

数据分析师薪酬如何?爬虫拉勾网告诉你

首先说明这篇文章的数据来源,是爬虫拉勾网"数据分析师"这一职位信息所得来的。并且主要分析了数据分析师总体薪酬情况、不同城市薪酬分布、不同学历薪酬分布、北京上海工作经验薪酬分布情况、北上广深对数据分析...

DataFrog 发表了文章 • 2019-08-28 19:19

0
推荐
1157
浏览

爬虫札记2——正则re模块爬取maoyan

import reimport requestsfor i in range(10): url = 'https://maoyan.com/board/4?offset={}'.format(i) content = requests.get(url).text pattern = re.compile('<dl.*?board-wrapper.*?href="https://ask.hellobi.com/(.*...

皮大大 发表了文章 • 2019-07-21 23:47

1
推荐
1485
浏览

爬虫札记1_requests+xlwt+lxml 爬取maoyan

``` import jsonfrom lxml import etreeimport requestsimport xlwtclass MaoyanSpider: # 通过建立一个类,多个函数 实现 # 代码实现通过lxml和xpath对猫眼电影top100的爬取 # 保存成TXT和Excel表格...

皮大大 发表了文章 • 2019-07-21 23:36

0
推荐
3155
浏览

最简单爬虫rvest_告别复制粘贴

作者:李誉辉  四川大学在读研究生简介:rvest是Hadley大神开发的包,使用非常简单,不需要懂得太多的HTML和CSS知识,当然对于反爬虫的web,基本上就力不从心了,这种情况还是使用Python吧,毕竟术业有...

R语言中文社区 发表了文章 • 2019-04-08 10:02

1
推荐
2948
浏览

爬过这些网站才算会爬虫

摘要:微信、知乎、新浪等主流网站的模拟登陆爬取方法。网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫...

Python爱好者社区 发表了文章 • 2019-04-04 10:30

0
推荐
1994
浏览

Python一键爬取你所关心的书籍信息

作者:梅破知春近,准数据分析师个人简书专栏:放翁lcf https://www.jianshu.com/u/ea4b6b1d2c22前言 平时看到的豆瓣爬虫基本都是爬豆瓣top100电影、某电影热评、top100图书、热门图书等,最近遇到的一个需...

Python爱好者社区 发表了文章 • 2019-04-02 13:51

条新动态, 点击查看
牟瑞-人民日报媒体技术: 可以使用容器技术,或者指定进程,在每一颗CPU上启动一个Python进程。
hi,I'm frank: 好的,谢谢建议。目前我们是打包scrapyd+scrapy project = docker 的形式,在看有没有更好的更有效... 显示全部 »
牟瑞-人民日报媒体技术: 可以使用容器技术,或者指定进程,在每一颗CPU上启动一个Python进程。
hi,I'm frank: 好的,谢谢建议。目前我们是打包scrapyd+scrapy project = docker 的形式,在看有没有更好的更有效的方案。
Rong: scrapyd+scrapy project = docker 应该效率还好吧?
牟瑞-人民日报媒体技术: 这种方式对于Python来说是比较好的了。
hi,I'm frank: @人民日报媒体技术-牟瑞 其实这样一是减少运维成本,二是解耦合,都以api方式互相调用。三,基于api可以做更多的东西,比如dashbord
hi,I'm frank: 比如这种:
 
17253

rong: 同意大鱼的说法, 现在etl也逐渐api化了
牟瑞-人民日报媒体技术: @深圳_爬虫_大鱼 你们已经做到前面了。
hi,I'm frank: 嗯,之前做过etl [Smile],现在做爬虫,感觉以前的一套完全可以灵活的用起来。见笑了
牟瑞-人民日报媒体技术: 很多技术都是相通的。。
hi,I'm frank: 当然,爬虫只是一个raw data ,数据清洗的小伙伴们负责piepline的部分。
天善小编

天善小编 回答了问题 • 2016-05-09 12:59 • 1 个回复 不感兴趣

请教下,爬虫的数据主要存储在哪里?

赞同来自:

hi,I'm frank: 爬虫的数据适合mongo 等nosql的数据库
牟瑞-人民日报媒体技术: 对,优先是非结构化的数据库,,等非常稳定后可以变成结构化的。
hi,I'm frank: @牟瑞-人民日报媒体技术 上次云栖大会问过阿里的数据讲师,都... 显示全部 »
hi,I'm frank: 爬虫的数据适合mongo 等nosql的数据库
牟瑞-人民日报媒体技术: 对,优先是非结构化的数据库,,等非常稳定后可以变成结构化的。
hi,I'm frank: @牟瑞-人民日报媒体技术 上次云栖大会问过阿里的数据讲师,都讨论过一下
hi,I'm frank: 对了,用mongo的同学记得mongo尽量打包成docker限制资源。
看到过这个有介绍 <使用 voluptuous 校验数据>http://python.jobbole.com/84762/
看到过这个有介绍 <使用 voluptuous 校验数据>http://python.jobbole.com/84762/
这里个人比较喜欢Pycharm,一个商业的Python开发IDE,可以在网站找一个注册码。
个人不是特别推荐使用Windows来开发Python的代码,确实有点麻烦,不过这点麻烦比起Java来已经轻松很多了。
推荐Centos的桌面系统或者Ubuntu系统,使... 显示全部 »
这里个人比较喜欢Pycharm,一个商业的Python开发IDE,可以在网站找一个注册码。
个人不是特别推荐使用Windows来开发Python的代码,确实有点麻烦,不过这点麻烦比起Java来已经轻松很多了。
推荐Centos的桌面系统或者Ubuntu系统,使用pip来安装各种依赖,已经非常方便了。
 
另外,如果遇到什么问题可以在天善上来提问。
牟瑞

牟瑞 回答了问题 • 2016-08-11 09:02 • 1 个回复 不感兴趣

python 爬虫显示问题

赞同来自:

这个问题确实非常棘手,说实话,我也没有比较好的办法,之所以没有好的办法原因如下:
由于涉及编码问题,Python对utf8,unicode做了不同的处理,但是对中文感觉总是不那么完美,造成你这个问题的原因也是编码问题。
1.首先你把你的代码复制下来,不要采用n... 显示全部 »
这个问题确实非常棘手,说实话,我也没有比较好的办法,之所以没有好的办法原因如下:
由于涉及编码问题,Python对utf8,unicode做了不同的处理,但是对中文感觉总是不那么完美,造成你这个问题的原因也是编码问题。
1.首先你把你的代码复制下来,不要采用notebook的形式,采用.py的形式运行一下看看结果是否一样
2.按照我现在的理解,实际上,你的第一次输出的格式也是unicode编码的,之所以能正确显示出来,是因为浏览器将输出的内容做了转化,不是Python的正常输出。而第二次的是属于正常的输出。
 
可以尝试下:encode(),decode()的方式,进行转码,然后反复验证下。
usenet506

usenet506 回答了问题 • 2016-11-03 16:14 • 1 个回复 不感兴趣

爬虫中html是否后缀read() 有什么区别

赞同来自:

urlopen方法返回的是 response对象;
response对象的read方法才能返回网页内容
urlopen方法返回的是 response对象;
response对象的read方法才能返回网页内容
伪造request请求,去请求这个地址就好了
伪造request请求,去请求这个地址就好了
针对不同的网站要写不同的爬虫程序。
招聘网站do都会有反爬,长期爬取需要做好fan反爬。
针对不同的网站要写不同的爬虫程序。
招聘网站do都会有反爬,长期爬取需要做好fan反爬。
非专业爬虫者简单说点:爬虫就是模拟人的行为去网上获取数据。要考虑的问题嘛,避免被反爬,避免短时间集中去爬,避开高峰期,毕竟网站有很多人访问,被你爬得当掉就不好了。
至于反反爬嘛:
1.设置ua,模拟浏览器
2.降低访问频率
3.ip代理
4.selenium+... 显示全部 »
非专业爬虫者简单说点:爬虫就是模拟人的行为去网上获取数据。要考虑的问题嘛,避免被反爬,避免短时间集中去爬,避开高峰期,毕竟网站有很多人访问,被你爬得当掉就不好了。
至于反反爬嘛:
1.设置ua,模拟浏览器
2.降低访问频率
3.ip代理
4.selenium+浏览器方式
至于具体要获取什么内容,用正则、xpath、BeautifulSoup等解析获取,得自己分析出来。
import requests
from lxml import etree
from fake_useragent import UserAgent
ua = UserAgent()

url = ''
headers = {'User-Agent':'u... 显示全部 »
import requests
from lxml import etree
from fake_useragent import UserAgent
ua = UserAgent()

url = ''
headers = {'User-Agent':'ua.random'}
r = requests.get(url,headers=headers).text
s = etree.HTML(r)
print(s.xpath()) 使用requests获取源码,xpath解析
可以在抛出异常,使用别的代理或者代理池
可以在抛出异常,使用别的代理或者代理池
你的Python 环境变量设置的有问题 把Python环境和Python的包的也加进去
 
你的Python 环境变量设置的有问题 把Python环境和Python的包的也加进去
 
一只写程序的猿

一只写程序的猿 回答了问题 • 2018-08-20 18:01 • 3 个回复 不感兴趣

python爬虫遇到403如何解决?

赞同来自:

并不是加了User-Agent就可以使对方网站认定为你是正常访问,特殊的网站会有别的反爬机制,你可以看下是不是有加了反外链。
并不是加了User-Agent就可以使对方网站认定为你是正常访问,特殊的网站会有别的反爬机制,你可以看下是不是有加了反外链。
9
推荐
3685
浏览

Python3中正则表达式使用方法

正则表达式本节我们看一下正则表达式的相关用法,正则表达式是处理字符串的强大的工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。当然对于爬虫来说,有了它,我们从HTML里...

崔庆才 发表了文章 • 2017-05-27 23:57

5
推荐
4180
浏览

Scrapy 爬取伯乐在线实战

项目介绍使用Scrapy框架进行爬取伯乐在线的所有技术文章所用知识点Scrapy项目的创建Scrapy框架Shell命令的使用Scrapy自带的图片下载管道Scrapy自定义图片下载管道(继承自带的管道)Scrapy框架ItemLoader的使用Scra...

蒋蜀黍 发表了文章 • 2017-05-16 20:53

1
推荐
2665
浏览

爬取百度音乐5000热门歌单10万音乐数据

平时喜欢用百度音乐随便找个歌单听听歌,一来搜索打开方便,二来歌曲曲目也全。今天在找歌单的时候,突然想看看热门歌单里都有哪里歌曲,于是便有了这个小程序。首先,需要获取各个歌单的地址,我们从百度音乐的...

州的先生 发表了文章 • 2017-05-12 14:46

0
推荐
1936
浏览

【学习笔记】Python基础入门(四)

【学习笔记】Python基础入门(一)【学习笔记】Python基础入门(二)【学习笔记】Python基础入门(三)用于引用(绑定)对象的标识符语法变量名 = 对象(数值、表达式等)如计算圆面积pi = 3.14radius = 12.3area...

李亮辰 发表了文章 • 2017-05-12 14:10

1
推荐
2487
浏览

爬虫入门系列(四):HTML文本解析库BeautifulSoup

系列文章的第3篇介绍了网络请求库神器 Requests ,请求把数据返回来之后就要提取目标数据,不同的网站返回的内容通常有多种不同的格式,一种是 json 格式,这类数据对开发者来说最友好。另一种 XML 格式的,还有...

刘志军 发表了文章 • 2017-05-11 16:55

15
推荐
6799
浏览

Python数据采集和分析告诉你为何上海的二手房你都买不起!(一)

1.前言本人是个学生党,在过两年就要研究生毕业了,面临着找工作,相信很多人也面临或者经历过工作,定居租房买房之类的在此,我们来采集一下上海在售的二手房信息,有人想问,为啥不采集新房?快醒醒吧,新房可...

ID王大伟 发表了文章 • 2017-04-19 17:08

9
推荐
3975
浏览

关于反爬虫的一些总结

1、爬取过程中的302重定向在爬取某个网站速度过快或者发出的请求过多的时候,网站会向你所在的客户端发送一个链接,需要你去验证图片。我在爬链家和拉钩网的过程中就曾经遇到过:对于302重定向的问题,是由于抓取...

watermelon 发表了文章 • 2017-02-08 14:57

6
推荐
5310
浏览

合并多个PDF文档的解决:附生成天善用户的博客内容合集的Python示例

上一篇《天善博客内容如何转成PDF文档》介绍了如何从html生成pdf的原理,不过wkhtmltopdf有限制,文档多了,需要生成多个pdf文件,原来使用http://www.pdfmerge.com/在线服务合并文档。感觉不完美,合并更多文件...

seng 发表了文章 • 2016-04-29 10:02

0
投票
3
已解决
4010
浏览

python爬虫遇到403如何解决?

xiaotaomi 回复了问题 • 2021-07-15 11:20
0
投票
1
已解决
1429
浏览
0
投票
0
回答
1263
浏览
0
投票
1
回答
1396
浏览

python能爬取app内的内容吗?

XXXX 回复了问题 • 2017-04-27 11:18
0
投票
1
回答
1349
浏览

Pylink是一种什么工具?

ID王大伟 回复了问题 • 2017-04-20 14:15
0
投票
1
回答
1197
浏览
0
推荐
1360
浏览

打开高德地图的神秘钥匙

作者:Economicoder微信公众号:数据学徒有了高德地图的导航,我们便能踏遍祖国的绿水青山。其实,高德本身也是一座金山银山,蕴藏着丰富的数据资源。至于数据学徒,愿为一枚小小的数据搬运工。想要进入高德这座...

Economicoder 发表了文章 • 2020-12-23 18:44

0
推荐
1145
浏览

一篇文章教会你使用Python网络爬虫下载酷狗音乐

【一、项目背景】现在的听歌软件动不动就是各种付费,要下载软件才能听,当你下载了之后,你会惊奇的发现这首歌还收费,这就让一向喜欢白嫖的小编感到很伤心了。于是,小编冥思苦想,终于让我发现了其中的奥秘,...

dcpeng 发表了文章 • 2020-10-09 21:12

0
推荐
1585
浏览

一篇文章教会你利用Python网络爬虫获取分类图片

【一、项目背景】博海拾贝是一支互联网从业者在线教育的团队,扎根于中国教育行业以及互联网行业的创新和眼球中,打造专业体系化的互联网人在线教育平台。精心创作许多精彩的文章,提供了很多有趣的图片。今天来...

dcpeng 发表了文章 • 2020-09-30 11:32

0
推荐
1333
浏览

一篇文章教会你利用Python网络爬虫成为斗图达人

【一、项目背景】你是否在寻找可以与高手斗图的应用? 你是否在寻找可以自制表情的应用?你是否在寻找最全、最爆笑的表情库?斗图网是一个收集了成千上万的撕逼斗图表情包,在这里你可以快速找到想要的表情, 更好...

dcpeng 发表了文章 • 2020-09-25 16:48

0
推荐
1416
浏览

一篇文章教会你利用Python网络爬虫实现豆瓣电影采集

【一、项目背景】豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想看、在看和看过的电影电视剧 、顺便打分、写影评。极大地方便了人们的生活。今天以电视剧(美剧)为例,批量爬取...

dcpeng 发表了文章 • 2020-08-31 14:50

0
推荐
1213
浏览

手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇

/1 前言/    上篇文章我们谈及了天堂网站图片抓取的理论,这篇文章将针对上篇文章的未尽事宜进行完善,完成图片的批量抓取。/2 图片网址解析/    1. 我们首先来分析一下这个...

dcpeng 发表了文章 • 2020-05-12 13:13

0
推荐
1428
浏览

手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

/1 前言/    平时我们要下载图片,要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片。/2 项目准备工作/ &...

dcpeng 发表了文章 • 2020-05-10 09:27

0
推荐
1690
浏览

数据分析实战---通过爬虫管理社群作业

近期,和小伙伴们一起组织了疯狂数据分析小组,通过有计划的输入,每周总结一篇数据类文章,分别投稿到疯狂数据分析专题,并坚持一年时间,具体计划请看零基础入门数据分析成员的新年计划。可是如何管理作业呢?...

DataFrog 发表了文章 • 2019-08-28 20:57

0
推荐
1909
浏览

数据分析师薪酬如何?爬虫拉勾网告诉你

首先说明这篇文章的数据来源,是爬虫拉勾网"数据分析师"这一职位信息所得来的。并且主要分析了数据分析师总体薪酬情况、不同城市薪酬分布、不同学历薪酬分布、北京上海工作经验薪酬分布情况、北上广深对数据分析...

DataFrog 发表了文章 • 2019-08-28 19:19

0
推荐
1157
浏览

爬虫札记2——正则re模块爬取maoyan

import reimport requestsfor i in range(10): url = 'https://maoyan.com/board/4?offset={}'.format(i) content = requests.get(url).text pattern = re.compile('<dl.*?board-wrapper.*?href="https://ask.hellobi.com/(.*...

皮大大 发表了文章 • 2019-07-21 23:47

1
推荐
1485
浏览

爬虫札记1_requests+xlwt+lxml 爬取maoyan

``` import jsonfrom lxml import etreeimport requestsimport xlwtclass MaoyanSpider: # 通过建立一个类,多个函数 实现 # 代码实现通过lxml和xpath对猫眼电影top100的爬取 # 保存成TXT和Excel表格...

皮大大 发表了文章 • 2019-07-21 23:36

0
推荐
3155
浏览

最简单爬虫rvest_告别复制粘贴

作者:李誉辉  四川大学在读研究生简介:rvest是Hadley大神开发的包,使用非常简单,不需要懂得太多的HTML和CSS知识,当然对于反爬虫的web,基本上就力不从心了,这种情况还是使用Python吧,毕竟术业有...

R语言中文社区 发表了文章 • 2019-04-08 10:02

1
推荐
2948
浏览

爬过这些网站才算会爬虫

摘要:微信、知乎、新浪等主流网站的模拟登陆爬取方法。网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫...

Python爱好者社区 发表了文章 • 2019-04-04 10:30

0
推荐
1994
浏览

Python一键爬取你所关心的书籍信息

作者:梅破知春近,准数据分析师个人简书专栏:放翁lcf https://www.jianshu.com/u/ea4b6b1d2c22前言 平时看到的豆瓣爬虫基本都是爬豆瓣top100电影、某电影热评、top100图书、热门图书等,最近遇到的一个需...

Python爱好者社区 发表了文章 • 2019-04-02 13:51

0
推荐
1613
浏览

真行!你还见过哪些辣鸡的代码?

作者 | 小南瓜地瓜NO.1#define TRUE FALSE    快乐地去调试你的代码吧,哈哈NO.2#define NULL (::rand() % 2)  嗯,这个代码也很不错NO.3#def...

Python爱好者社区 发表了文章 • 2019-04-02 13:38