1
推荐
2907
阅读

爬过这些网站才算会爬虫

摘要:微信、知乎、新浪等主流网站的模拟登陆爬取方法。网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬,比如知乎、微信等。这类网站在模拟登陆时需要处理验证...

发表了文章 • 2019-04-04 10:30 • 0 条评论

0
推荐
1935
阅读

Python一键爬取你所关心的书籍信息

作者:梅破知春近,准数据分析师个人简书专栏:放翁lcf https://www.jianshu.com/u/ea4b6b1d2c22前言 平时看到的豆瓣爬虫基本都是爬豆瓣top100电影、某电影热评、top100图书、热门图书等,最近遇到的一个需求是根据一堆书名的列表(或者书名Excel文件)爬取对应的书目信息,也就是豆瓣图书页面上的出版社、出版时间...

发表了文章 • 2019-04-02 13:51 • 0 条评论

0
推荐
1578
阅读

真行!你还见过哪些辣鸡的代码?

作者 | 小南瓜地瓜NO.1#define TRUE FALSE    快乐地去调试你的代码吧,哈哈NO.2#define NULL (::rand() % 2)  嗯,这个代码也很不错NO.3#define if( if(!卧槽,这个代码更……哈哈,你们可以试试看NO.4#define if(x) if(!(x))上面...

发表了文章 • 2019-04-02 13:38 • 0 条评论

1
推荐
3116
阅读

网易云音乐评论爬取。

作者: 小F公众号: 法纳斯特近日,民谣歌手花粥被爆出涉嫌抄袭。具体的我就不细说了,音乐圈的抄袭风波也是喜闻乐见。比如,李袁杰的「离人愁」,展展与罗罗的「沙漠骆驼」还有陈柯宇的「生僻字」。本次通过爬取网易云音乐的评论,即目前热歌榜第一名「出山」的评论。来看看,在没被指出抄袭时,歌曲的评论画风是如何。...

发表了文章 • 2019-03-26 09:42 • 0 条评论

0
推荐
2408
阅读

从豆瓣的反爬说说自建代理池

作者:强哥,现供职于一家大型全球电子商务网站,多年Python程序员,热爱数据,热爱AI,希望能与更多同业人交流。个人公众号:Python与数据分析爬过豆瓣的同学应该都有过这样的经历,一开始爬取的过程挺正常的,但爬着爬着就不能获取到数据了。这是因为豆瓣对IP作了限制,如果短时间内来自同一个IP的请求太多,就会禁止...

发表了文章 • 2019-03-08 10:29 • 0 条评论

0
推荐
1947
阅读

基于工业数据申请评分卡

作者:废才大叔个人公众号: 废才数据挖掘    为了让更多小伙伴了解申请评分卡建模过程,小编利用某工业数据,做了一个简略版基于Python数据分析。该评分卡制作比较粗略,有部分步骤并不是严格按照工业级别评分卡流程来制作,本文仅仅为大家做一个评分卡流程梳理。    定义Y是需要根...

发表了文章 • 2019-02-28 14:16 • 0 条评论

0
推荐
1853
阅读

10个爬虫工程师必备的工具了解一哈

作者: 张小吉个人公众号:鸡仔说工欲善其事必先利其器的道理相信大家都懂。而作为经常要和各大网站做拉锯战的爬虫工程师们,则更需要利用利用好身边的一切法器,以便更快的攻破对方防线。今天我就以日常爬虫流程,给大家介绍十款工具,相信大家掌握之后,必定能够在工作效率上,提升一个量级爬虫第一部做什么?当然是目...

发表了文章 • 2019-02-20 09:58 • 0 条评论

0
推荐
1460
阅读

一文入门Python + Selenium动态爬虫——从了解房价开始

作者:timber ,在一家电子商务(外贸)公司任职运维,平常工作时我觉得敲命令的样子也很帅    ---Python,Changed me!个人博客地址: https://blog.csdn.net/weixin_42946604本文首发于:https://blog.csdn.net/weixin_42946604前言我这里用到了的python+selenium来抓取链家房数据,因爲很多时候分...

发表了文章 • 2019-02-18 11:12 • 0 条评论

0
推荐
1465
阅读

爬虫小偏方系列:robots.txt快速抓取网站的小窍门

作者:王平   一个IT老码农,写Python十年有余个人公众号:猿人学Python 分享怎么通过技术运营来挣钱和Python开发实践经验在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的robots.txt文件,有时会给你打开另一扇抓取之门。写爬虫有很多苦恼的事情,比如:1.访问频次太高被限制;2.如何...

发表了文章 • 2019-02-11 12:56 • 0 条评论

0
推荐
1842
阅读

爬取国内创业公司、投资机构、独角兽公司信息

作者:  苏克1900公众号:第2大脑摘要: 之前爬的网站都是不需要登录就可以爬取的,但还有很多网站的内容需要先登录才能爬,比如桔子网、豆瓣、知乎等。这时采用之前的方法就不行了,需要先登录再去爬。本文以桔子网为例,介绍模拟登录方法,然后爬取该网站数据库中的数据信息,并保存到 MongoDB 数据库中。1....

发表了文章 • 2019-02-11 12:38 • 0 条评论

0
推荐
4068
阅读

Python爬虫之抖音视频批量提取术

作者:  张小鸡  Python爱好者社区专栏作者知乎ID:https://www.zhihu.com/people/mr.ji个人公众号:鸡仔说  假期正好有空闲时间,终于可以整理自己的笔记啦。整理到抖音视频的时候,就好麻烦,每次都要先把视频导出到本地,再给微信的文件管理助手,再下载传到印象笔记,一来二去浪费不...

发表了文章 • 2019-01-21 09:35 • 0 条评论

0
推荐
1288
阅读

Scrapy之10行代码爬下电影天堂全站

作者:  张小鸡  Python爱好者社区专栏作者知乎ID:https://www.zhihu.com/people/mr.ji个人公众号:鸡仔说  前言scrapy的强大相信大家已早有耳闻,之前用的时候只是感觉它爬取效率高,内部的异步封装很友好。殊不知我看到的知识冰山一角,它还有很多提高开发效率的功能,今天就以一个实...

发表了文章 • 2019-01-15 11:24 • 0 条评论

0
推荐
1426
阅读

简单聊聊工作中总结的爬虫经验

作者:不吃夹生饭   爬虫工程师    Python爱好者社区专栏作者知乎ID : https://www.zhihu.com/people/bu-chi-jia-sheng-fan原本计划是开了这个专栏一周更新一篇,但是这段时间太忙了。今天主要是说说工作中遇到的:1.各类反爬虫2.一些小技巧3.我自己常用的爬虫框架4.分享搭建一个简单的代理池好了,...

发表了文章 • 2019-01-03 10:02 • 0 条评论

0
推荐
1468
阅读

当你写爬虫时遇上Flash+加密的解决方式

作者:loco   Python爱好者社区专栏作者知乎: https://zhuanlan.zhihu.com/p/45508079今天在摸鱼(划掉)逛V2EX的时候,有个帖子引起了我的注意求助一个网站视频加密方式, 已排除是 base64 加密 - V2EXhttps://www.v2ex.com/t/493201帖子内容:视频链接加密之后是这样的: lxxt6jIID2Byq541xEB6F3...

发表了文章 • 2018-12-28 13:01 • 0 条评论

0
推荐
1273
阅读

爬了下知乎神回复,笑死人了~

作者:强哥,现供职于一家大型全球电子商务网站,多年Python程序员,热爱数据,热爱AI,希望能与更多同业人交流。个人公众号:Python与数据分析都说知乎出人才,爬虫爬了下知乎上的回答,整理了80条超级搞笑的神回复,已经笑趴

发表了文章 • 2018-10-29 18:02 • 0 条评论