爬虫

爬虫

0
投票
1
已解决
157
浏览

python爬虫遇到403如何解决?

许胜利 回复了问题 • 1 天前
0
推荐
116
浏览

javax.net.ssl.SSLHandshakeException: java.security.cert.CertificateException: Certificates does not conform to algorithm constraints解决方案

问题来源用java开发爬虫程序时,我使用了webmagic框架,该框架可绕过部分https网站的证书,但对于某些尤其是银行类的网站,就遇到了这样的错误信息:“javax.net.ssl.SSLHandshakeException: java.security.cert.C...

_缘君_ 发表了文章 • 2018-06-30 13:39

1
推荐
320
浏览

《Python3网络爬虫开发实战》第二波抽奖赠书活动来了!

嗨~ 给大家重磅推荐一本书!上市两月就已经重印 4 次的 Python 爬虫书!它就是由静觅博客博主崔庆才所作的《Python3网络爬虫开发实战》!!!同时文末还有抽奖赠书活动,不容错过!!!书籍介绍本书《Python3网络...

崔庆才 发表了文章 • 2018-06-12 01:38

0
推荐
159
浏览

淘宝商品评论的爬虫实战

之前的一篇文章实践了微博这类短文本可以进行的分析,没有讲数据的来源。因此我打算记录一些爬虫方面的实践,毕竟爬虫是我很需要深入的部分,欢迎大家指教。这里讨论一下淘宝商品的评论的爬取。用的工具还是利器P...

lyndonlcf 发表了文章 • 2018-06-09 16:51

0
推荐
177
浏览

【nodejs爬虫系列】02--web应用express框架

引言我们要搭个简单的web服务,为我们的爬虫提供几个API,python和nodejs都是不错的选择。Express是个简洁而灵活的nodejs Web应用框架,用其可以快速地搭建一个完整功能的网站。安装Express按上篇(https://ask.h...

_缘君_ 发表了文章 • 2018-04-30 23:49

2
推荐
144
浏览

崔老师课程实践过程遇坑及爬坑经验记录2——redis环境配置

homebrew是个好东西,安装各种软件很方便,在安装redis时候出现以下错误:遇到问题不懂找百度先,刚好有遇到类似问题的小伙伴,文章连接:https://www.cnblogs.com/Gnnnny/p/7851147.html瞬间觉得有希望了,按小...

zheng1076 发表了文章 • 2018-03-28 23:39

3
推荐
316
浏览

【R爬虫-2】上海市各小区挂牌均价

作者:傅兴 R语言中文社区专栏作者个人公众号:Rapp房价一直是中国老百姓最关心的话题之一。Rapp 也一直想分析房地产方面的数据。如果拿到全国的房价数据,不仅可以知道各个城市最贵的和最便宜的房子在哪里,哪些...

R语言中文社区 发表了文章 • 2018-03-12 09:39

3
推荐
499
浏览

Python基础项目——利用Python爬虫爬取淘宝网某类商品的图片

这是跟着韦伟老师的Python数据分析课程做的爬虫实战项目,在这里记录下来,也方便学习分享。2018-01-28 完成项目:利用Python爬虫爬取淘宝网某类商品的图片 ******Step1******以连衣裙为例,观察淘宝网连衣...

顾小t 发表了文章 • 2018-03-05 14:18

6
推荐
483
浏览

Python可以做哪些好玩的事之将喜欢的博客整理成pdf

最近在学习ETL,于是在天善关键词搜索,光看目录就已经觉得很牛逼了~ <数据仓库设计、ETL设计框架>等等。作为一个爱学习的人,看到这么多有内涵的博客,当然想学习新技能(flag+1),但是我更习惯在手机上浏...

许胜利 发表了文章 • 2018-02-05 19:52

0
投票
1
已解决
187
浏览
9
推荐
956
浏览

跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!

背景用 Python 做过爬虫的小伙伴可能接触过 Scrapy,GitHub:https://github.com/scrapy/scrapy。Scrapy 的确是一个非常强大的爬虫框架,爬取效率高,扩展性好,基本上是使用 Python 开发爬虫的必备利器。如果使...

崔庆才 发表了文章 • 2018-01-20 03:46

0
投票
1
回答
199
浏览
11
推荐
955
浏览

从数据角度探究《前任3》为什么这么火爆

1.《前任3》为什么这么火爆截止发文时《前任3》票房15.50亿,成为一匹黑马,我习惯性的去豆瓣看了评分豆瓣上8万多人只打出了5.8的评分,其中1星-3星占比72.6%,那么问题来了,在绝大多数豆瓣粉丝都认为是“烂片”的...

许胜利 发表了文章 • 2018-01-17 21:07

10
推荐
974
浏览

Python采集微博热评进行情感分析祝你狗年脱单

Ps: 重要的事情说三遍!!! 结尾有彩蛋,结尾有彩蛋,结尾有彩蛋。如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据库,这就需...

许胜利 发表了文章 • 2018-01-10 18:00

1
推荐
200
浏览

爬取拉勾网招聘信息—后续

前段时间爬取拉勾网职位信息有几大问题:1、代码太复杂2、爬取数据一段时间后得到职位的城市就会变成上海3、不能够添加搜索的关键词在此重新改变下代码,添加了搜索的关键词,同时在拉勾网最多只能爬取30页,也就...

走马兰台 发表了文章 • 2018-01-08 14:45

条新动态, 点击查看
牟瑞-人民日报媒体技术: 可以使用容器技术,或者指定进程,在每一颗CPU上启动一个Python进程。
hi,I'm frank: 好的,谢谢建议。目前我们是打包scrapyd+scrapy project = docker 的形式,在看有没有更好的更有效... 显示全部 »
牟瑞-人民日报媒体技术: 可以使用容器技术,或者指定进程,在每一颗CPU上启动一个Python进程。
hi,I'm frank: 好的,谢谢建议。目前我们是打包scrapyd+scrapy project = docker 的形式,在看有没有更好的更有效的方案。
Rong: scrapyd+scrapy project = docker 应该效率还好吧?
牟瑞-人民日报媒体技术: 这种方式对于Python来说是比较好的了。
hi,I'm frank: @人民日报媒体技术-牟瑞 其实这样一是减少运维成本,二是解耦合,都以api方式互相调用。三,基于api可以做更多的东西,比如dashbord
hi,I'm frank: 比如这种:
 
17253

rong: 同意大鱼的说法, 现在etl也逐渐api化了
牟瑞-人民日报媒体技术: @深圳_爬虫_大鱼 你们已经做到前面了。
hi,I'm frank: 嗯,之前做过etl [Smile],现在做爬虫,感觉以前的一套完全可以灵活的用起来。见笑了
牟瑞-人民日报媒体技术: 很多技术都是相通的。。
hi,I'm frank: 当然,爬虫只是一个raw data ,数据清洗的小伙伴们负责piepline的部分。
天善小编

天善小编 回答了问题 • 2016-05-09 12:59 • 1 个回复 不感兴趣

请教下,爬虫的数据主要存储在哪里?

赞同来自:

hi,I'm frank: 爬虫的数据适合mongo 等nosql的数据库
牟瑞-人民日报媒体技术: 对,优先是非结构化的数据库,,等非常稳定后可以变成结构化的。
hi,I'm frank: @牟瑞-人民日报媒体技术 上次云栖大会问过阿里的数据讲师,都... 显示全部 »
hi,I'm frank: 爬虫的数据适合mongo 等nosql的数据库
牟瑞-人民日报媒体技术: 对,优先是非结构化的数据库,,等非常稳定后可以变成结构化的。
hi,I'm frank: @牟瑞-人民日报媒体技术 上次云栖大会问过阿里的数据讲师,都讨论过一下
hi,I'm frank: 对了,用mongo的同学记得mongo尽量打包成docker限制资源。
看到过这个有介绍 <使用 voluptuous 校验数据>http://python.jobbole.com/84762/
看到过这个有介绍 <使用 voluptuous 校验数据>http://python.jobbole.com/84762/
这里个人比较喜欢Pycharm,一个商业的Python开发IDE,可以在网站找一个注册码。
个人不是特别推荐使用Windows来开发Python的代码,确实有点麻烦,不过这点麻烦比起Java来已经轻松很多了。
推荐Centos的桌面系统或者Ubuntu系统,使... 显示全部 »
这里个人比较喜欢Pycharm,一个商业的Python开发IDE,可以在网站找一个注册码。
个人不是特别推荐使用Windows来开发Python的代码,确实有点麻烦,不过这点麻烦比起Java来已经轻松很多了。
推荐Centos的桌面系统或者Ubuntu系统,使用pip来安装各种依赖,已经非常方便了。
 
另外,如果遇到什么问题可以在天善上来提问。
牟瑞

牟瑞 回答了问题 • 2016-08-11 09:02 • 1 个回复 不感兴趣

python 爬虫显示问题

赞同来自:

这个问题确实非常棘手,说实话,我也没有比较好的办法,之所以没有好的办法原因如下:
由于涉及编码问题,Python对utf8,unicode做了不同的处理,但是对中文感觉总是不那么完美,造成你这个问题的原因也是编码问题。
1.首先你把你的代码复制下来,不要采用n... 显示全部 »
这个问题确实非常棘手,说实话,我也没有比较好的办法,之所以没有好的办法原因如下:
由于涉及编码问题,Python对utf8,unicode做了不同的处理,但是对中文感觉总是不那么完美,造成你这个问题的原因也是编码问题。
1.首先你把你的代码复制下来,不要采用notebook的形式,采用.py的形式运行一下看看结果是否一样
2.按照我现在的理解,实际上,你的第一次输出的格式也是unicode编码的,之所以能正确显示出来,是因为浏览器将输出的内容做了转化,不是Python的正常输出。而第二次的是属于正常的输出。
 
可以尝试下:encode(),decode()的方式,进行转码,然后反复验证下。
usenet506

usenet506 回答了问题 • 2016-11-03 16:14 • 1 个回复 不感兴趣

爬虫中html是否后缀read() 有什么区别

赞同来自:

urlopen方法返回的是 response对象;
response对象的read方法才能返回网页内容
urlopen方法返回的是 response对象;
response对象的read方法才能返回网页内容
伪造request请求,去请求这个地址就好了
伪造request请求,去请求这个地址就好了
针对不同的网站要写不同的爬虫程序。
招聘网站do都会有反爬,长期爬取需要做好fan反爬。
针对不同的网站要写不同的爬虫程序。
招聘网站do都会有反爬,长期爬取需要做好fan反爬。
非专业爬虫者简单说点:爬虫就是模拟人的行为去网上获取数据。要考虑的问题嘛,避免被反爬,避免短时间集中去爬,避开高峰期,毕竟网站有很多人访问,被你爬得当掉就不好了。
至于反反爬嘛:
1.设置ua,模拟浏览器
2.降低访问频率
3.ip代理
4.selenium+... 显示全部 »
非专业爬虫者简单说点:爬虫就是模拟人的行为去网上获取数据。要考虑的问题嘛,避免被反爬,避免短时间集中去爬,避开高峰期,毕竟网站有很多人访问,被你爬得当掉就不好了。
至于反反爬嘛:
1.设置ua,模拟浏览器
2.降低访问频率
3.ip代理
4.selenium+浏览器方式
至于具体要获取什么内容,用正则、xpath、BeautifulSoup等解析获取,得自己分析出来。
import requests
from lxml import etree
from fake_useragent import UserAgent
ua = UserAgent()

url = ''
headers = {'User-Agent':'u... 显示全部 »
import requests
from lxml import etree
from fake_useragent import UserAgent
ua = UserAgent()

url = ''
headers = {'User-Agent':'ua.random'}
r = requests.get(url,headers=headers).text
s = etree.HTML(r)
print(s.xpath()) 使用requests获取源码,xpath解析
可以在抛出异常,使用别的代理或者代理池
可以在抛出异常,使用别的代理或者代理池
许胜利

许胜利 回答了问题 • 2018-01-31 14:36 • 1 个回复 不感兴趣

为什么使用scrapy时有些第三方库无法找到?

赞同来自:

你的Python 环境变量设置的有问题 把Python环境和Python的包的也加进去
 
你的Python 环境变量设置的有问题 把Python环境和Python的包的也加进去
 
许胜利

许胜利 回答了问题 • 1 天前 • 1 个回复 不感兴趣

python爬虫遇到403如何解决?

赞同来自:

并不是加了User-Agent就可以使对方网站认定为你是正常访问,特殊的网站会有别的反爬机制,你可以看下是不是有加了反外链。
并不是加了User-Agent就可以使对方网站认定为你是正常访问,特殊的网站会有别的反爬机制,你可以看下是不是有加了反外链。
9
推荐
1493
浏览

Python3中正则表达式使用方法

正则表达式本节我们看一下正则表达式的相关用法,正则表达式是处理字符串的强大的工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。当然对于爬虫来说,有了它,我们从HTML里...

崔庆才 发表了文章 • 2017-05-27 23:57

5
推荐
1434
浏览

Scrapy 爬取伯乐在线实战

项目介绍使用Scrapy框架进行爬取伯乐在线的所有技术文章所用知识点Scrapy项目的创建Scrapy框架Shell命令的使用Scrapy自带的图片下载管道Scrapy自定义图片下载管道(继承自带的管道)Scrapy框架ItemLoader的使用Scra...

蒋蜀黍 发表了文章 • 2017-05-16 20:53

1
推荐
662
浏览

爬取百度音乐5000热门歌单10万音乐数据

平时喜欢用百度音乐随便找个歌单听听歌,一来搜索打开方便,二来歌曲曲目也全。今天在找歌单的时候,突然想看看热门歌单里都有哪里歌曲,于是便有了这个小程序。首先,需要获取各个歌单的地址,我们从百度音乐的...

州的先生 发表了文章 • 2017-05-12 14:46

0
推荐
402
浏览

【学习笔记】Python基础入门(四)

【学习笔记】Python基础入门(一)【学习笔记】Python基础入门(二)【学习笔记】Python基础入门(三)用于引用(绑定)对象的标识符语法变量名 = 对象(数值、表达式等)如计算圆面积pi = 3.14radius = 12.3area...

李亮辰 发表了文章 • 2017-05-12 14:10

1
推荐
522
浏览

爬虫入门系列(四):HTML文本解析库BeautifulSoup

系列文章的第3篇介绍了网络请求库神器 Requests ,请求把数据返回来之后就要提取目标数据,不同的网站返回的内容通常有多种不同的格式,一种是 json 格式,这类数据对开发者来说最友好。另一种 XML 格式的,还有...

刘志军 发表了文章 • 2017-05-11 16:55

14
推荐
2926
浏览

Python数据采集和分析告诉你为何上海的二手房你都买不起!(一)

1.前言本人是个学生党,在过两年就要研究生毕业了,面临着找工作,相信很多人也面临或者经历过工作,定居租房买房之类的在此,我们来采集一下上海在售的二手房信息,有人想问,为啥不采集新房?快醒醒吧,新房可...

ID王大伟 发表了文章 • 2017-04-19 17:08

9
推荐
1651
浏览

关于反爬虫的一些总结

1、爬取过程中的302重定向在爬取某个网站速度过快或者发出的请求过多的时候,网站会向你所在的客户端发送一个链接,需要你去验证图片。我在爬链家和拉钩网的过程中就曾经遇到过:对于302重定向的问题,是由于抓取...

watermelon 发表了文章 • 2017-02-08 14:57

6
推荐
2544
浏览

合并多个PDF文档的解决:附生成天善用户的博客内容合集的Python示例

上一篇《天善博客内容如何转成PDF文档》介绍了如何从html生成pdf的原理,不过wkhtmltopdf有限制,文档多了,需要生成多个pdf文件,原来使用http://www.pdfmerge.com/在线服务合并文档。感觉不完美,合并更多文件...

seng 发表了文章 • 2016-04-29 10:02

0
投票
1
已解决
157
浏览
0
投票
1
已解决
187
浏览
0
投票
1
回答
199
浏览
0
投票
2
已解决
736
浏览
0
投票
0
回答
211
浏览
0
投票
1
回答
295
浏览

python能爬取app内的内容吗?

XXXX 回复了问题 • 2017-04-27 11:18
0
投票
1
回答
283
浏览

Pylink是一种什么工具?

ID王大伟 回复了问题 • 2017-04-20 14:15
0
投票
1
回答
201
浏览
0
推荐
116
浏览

javax.net.ssl.SSLHandshakeException: java.security.cert.CertificateException: Certificates does not conform to algorithm constraints解决方案

问题来源用java开发爬虫程序时,我使用了webmagic框架,该框架可绕过部分https网站的证书,但对于某些尤其是银行类的网站,就遇到了这样的错误信息:“javax.net.ssl.SSLHandshakeException: java.security.cert.C...

_缘君_ 发表了文章 • 2018-06-30 13:39

1
推荐
320
浏览

《Python3网络爬虫开发实战》第二波抽奖赠书活动来了!

嗨~ 给大家重磅推荐一本书!上市两月就已经重印 4 次的 Python 爬虫书!它就是由静觅博客博主崔庆才所作的《Python3网络爬虫开发实战》!!!同时文末还有抽奖赠书活动,不容错过!!!书籍介绍本书《Python3网络...

崔庆才 发表了文章 • 2018-06-12 01:38

0
推荐
159
浏览

淘宝商品评论的爬虫实战

之前的一篇文章实践了微博这类短文本可以进行的分析,没有讲数据的来源。因此我打算记录一些爬虫方面的实践,毕竟爬虫是我很需要深入的部分,欢迎大家指教。这里讨论一下淘宝商品的评论的爬取。用的工具还是利器P...

lyndonlcf 发表了文章 • 2018-06-09 16:51

0
推荐
177
浏览

【nodejs爬虫系列】02--web应用express框架

引言我们要搭个简单的web服务,为我们的爬虫提供几个API,python和nodejs都是不错的选择。Express是个简洁而灵活的nodejs Web应用框架,用其可以快速地搭建一个完整功能的网站。安装Express按上篇(https://ask.h...

_缘君_ 发表了文章 • 2018-04-30 23:49

2
推荐
144
浏览

崔老师课程实践过程遇坑及爬坑经验记录2——redis环境配置

homebrew是个好东西,安装各种软件很方便,在安装redis时候出现以下错误:遇到问题不懂找百度先,刚好有遇到类似问题的小伙伴,文章连接:https://www.cnblogs.com/Gnnnny/p/7851147.html瞬间觉得有希望了,按小...

zheng1076 发表了文章 • 2018-03-28 23:39

3
推荐
316
浏览

【R爬虫-2】上海市各小区挂牌均价

作者:傅兴 R语言中文社区专栏作者个人公众号:Rapp房价一直是中国老百姓最关心的话题之一。Rapp 也一直想分析房地产方面的数据。如果拿到全国的房价数据,不仅可以知道各个城市最贵的和最便宜的房子在哪里,哪些...

R语言中文社区 发表了文章 • 2018-03-12 09:39

3
推荐
499
浏览

Python基础项目——利用Python爬虫爬取淘宝网某类商品的图片

这是跟着韦伟老师的Python数据分析课程做的爬虫实战项目,在这里记录下来,也方便学习分享。2018-01-28 完成项目:利用Python爬虫爬取淘宝网某类商品的图片 ******Step1******以连衣裙为例,观察淘宝网连衣...

顾小t 发表了文章 • 2018-03-05 14:18

6
推荐
483
浏览

Python可以做哪些好玩的事之将喜欢的博客整理成pdf

最近在学习ETL,于是在天善关键词搜索,光看目录就已经觉得很牛逼了~ <数据仓库设计、ETL设计框架>等等。作为一个爱学习的人,看到这么多有内涵的博客,当然想学习新技能(flag+1),但是我更习惯在手机上浏...

许胜利 发表了文章 • 2018-02-05 19:52

9
推荐
956
浏览

跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!

背景用 Python 做过爬虫的小伙伴可能接触过 Scrapy,GitHub:https://github.com/scrapy/scrapy。Scrapy 的确是一个非常强大的爬虫框架,爬取效率高,扩展性好,基本上是使用 Python 开发爬虫的必备利器。如果使...

崔庆才 发表了文章 • 2018-01-20 03:46

11
推荐
955
浏览

从数据角度探究《前任3》为什么这么火爆

1.《前任3》为什么这么火爆截止发文时《前任3》票房15.50亿,成为一匹黑马,我习惯性的去豆瓣看了评分豆瓣上8万多人只打出了5.8的评分,其中1星-3星占比72.6%,那么问题来了,在绝大多数豆瓣粉丝都认为是“烂片”的...

许胜利 发表了文章 • 2018-01-17 21:07

10
推荐
974
浏览

Python采集微博热评进行情感分析祝你狗年脱单

Ps: 重要的事情说三遍!!! 结尾有彩蛋,结尾有彩蛋,结尾有彩蛋。如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据库,这就需...

许胜利 发表了文章 • 2018-01-10 18:00

1
推荐
200
浏览

爬取拉勾网招聘信息—后续

前段时间爬取拉勾网职位信息有几大问题:1、代码太复杂2、爬取数据一段时间后得到职位的城市就会变成上海3、不能够添加搜索的关键词在此重新改变下代码,添加了搜索的关键词,同时在拉勾网最多只能爬取30页,也就...

走马兰台 发表了文章 • 2018-01-08 14:45

7
推荐
1007
浏览

爬取股票历史数据并绘制K线图

引言有时候我们爬下股票数据后想在自己平台上显示K线图之类的。当然有时候嫌麻烦就直接截图了,可看图片毕竟不是很灵活,想看具体某天的无法显示,所以还是自己画比较好。今天看了pyecharts,感觉很不错。(https...

_缘君_ 发表了文章 • 2018-01-07 13:53

0
推荐
384
浏览

R语言抓包实战——知乎live二级页面获取

之前曾经写过一篇关于知乎live课程信息爬取的短文,那个直接遍历的知乎live主页上展示的部分课程,仅仅是很小的一部分。今日这一篇将是该小项目的升级版,直接对live主页的课程按照模块进行二级页面的遍历,这样...

杜雨 发表了文章 • 2018-01-02 10:31

5
推荐
134206
浏览

爬取拉勾网招聘信息

最近有个朋友在找工作,正好之前11月参加了天善社区的培训,于是尝试下用python爬取拉勾网的招聘信息。数据的爬取:      1、在拉勾网选关键词查询,经过分析发现关键词源码页面都在htt...

走马兰台 发表了文章 • 2017-12-25 10:37