施维而已的博客专栏

爬虫/data mining爱好者

3
推荐
1880
阅读

40行代码搞定女友日常问候微信机器人

前言作为一个程序狗,有个女朋友不容易,关键是女朋友还有各种各样的要求,比如每天晚上12点说晚安,每个纪念日要记得。这可让程序员如何是好,要知道,晚上12点,对我们来说晚上才刚刚开始;纪念日对我们来说就是写完一个project的日子。所以,对于女朋友提出的需求,作为程序员的我们,当然不能坐视不管了,我们要写个...

发表了文章 • 2017-11-07 10:41 • 5 条评论

3
推荐
2170
阅读

爬虫界的一股清流——用安卓做一个朋友圈屏蔽检测器

前言前段时间,新版微信加入了一个朋友圈只给看三天的新功能。于是就有了一个经典梗:朋友圈陌生人可以看十张照片,熟人只能看三天,只能友尽了!有了上面的段子之后,本人忽然意识到一个问题,那就是现在微信好友越来有越多,有的可能都只是为了加一下转个账什么的,连名字都不知道。这么多好友,有许多可能是半生不熟...

发表了文章 • 2017-07-11 00:55 • 1 条评论

3
推荐
1327
阅读

python 各种包下载大全网址

经常碰见pip install出现异常,安装不了一些python包。收藏分享一个python库下载网站,可以先在上面直接下载到本地,然后进入对应的文件夹,pip install 一波,就能完美安装了。传送门 http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

发表了文章 • 2017-03-17 00:23 • 2 条评论

4
推荐
2879
阅读

NMI(标准化互信息) python实现

介绍NMI是社区发现(community detection)在有标准ground-truth的情况下的重要衡量指标,基本可以比较客观地评价出一个社区划分与标准划分之间相比的准确度。NMI的值域是0到1,越高代表划分得越准。具体的原理和例子可以参考这篇博客:http://www.cnblogs.com/ziqiao/archive/2011/12/13/2286273.html 因为之前自己...

发表了文章 • 2017-03-14 19:07 • 4 条评论

1
推荐
2216
阅读

谱聚类(spectral clustering) python可视化实现

谱聚类介绍:这篇博客对于谱聚类的介绍包括公式推导挺到位的,当时上课的ppt也是截这个图,所以能看懂的话挺不错的。http://www.cnblogs.com/FengYan/archive/2012/06/21/2553999.html算法python实现:对于公式的推导什么的个人的理解并不是很深,下面直接说说这个算法的实现吧:首先,因为这个算法其实最先是叫做谱方法...

发表了文章 • 2017-03-13 17:14 • 0 条评论

0
推荐
2196
阅读

【爬虫进阶】用Scrapy实现动态网页(Unsplash)爬取及图片下载

上篇文章为大家介绍了一个高清无水印而且还免费的图片网站Unsplash,并且还写了个40行的小爬虫进行图片下载,方便快捷。我们知道,python爬虫有一个神奇就是scrapy,抱着学习的态度,我尝试着将上次的代码转化成在scrapy下运行的代码,看看效果如何。以下是使用scrapy的过程:首先是相关的一些安装,这里就不多说了,网...

发表了文章 • 2017-03-13 14:54 • 0 条评论

3
推荐
2465
阅读

40行动态爬虫代码搞定N张高清无码壁纸下载

首先,给大家介绍下一个可以下载高清无码大图片的网站:Unsplash | Free High-Resolution Photos。这个网站每天会定期更新一波高清无码图片,大多质量和美观度都很高,实在是电脑壁纸和图片素材的必备之选。这几天突然觉得,自己电脑的壁纸非常的low。想换一换壁纸的风格和多样性,所以就想着能不能写一个爬虫把这个网站...

发表了文章 • 2017-03-13 14:52 • 1 条评论