0
推荐
3014
阅读

macOS中把微信公众号的文章保存成PDF(并存入资料库)

macOS中把微信公众号的文章保存成PDF(并存入资料库)对于macOS/iOS生态,将微信公众号的文章保存成PDF是项总出小bug的事情,主要问题可能出在网页编码上。保存成的PDF看起来是没有问题的,但是如果想复制其中的文字,要么是乱码,要么会出现重字;再或者说是没有图片。具体的我就不细说了,有需求的自然明白其中痛苦。...

发表了文章 • 2017-07-28 16:04 • 0 条评论

2
推荐
4765
阅读

迟到的情人节礼物:做一个与她微信聊天的词云吧

所以这是两个逗比的日常本文受到《十分钟视频,手把手教你用Python撒情人节狗粮的正确姿势》启发,作者寒小阳,好像是一个机器学习QQ群的群主,但是我在那个群里潜水太久已经被踢了。原文只是拿了一个大话西游的文本来做成词云,而本文将使用情侣的微信聊天记录作为文本来源,是不是更情深意切,一虐方休。本文的操作系统...

发表了文章 • 2017-05-27 15:26 • 0 条评论

1
推荐
4308
阅读

AR(I)MA时间序列建模过程——步骤和python代码

也算是我自己的笔记,都2017年了,ARMA模型感觉已经过时了吧,用深度学习来预测的表现是不是更好,不过反正都研究了一下了,就做个记录吧。1.异常值和缺失值的处理这绝对是数据分析时让所有人都头疼的问题。异常和缺失值会破坏数据的分布,并且干扰分析的结果,怎么处理它们是一门大学问,而我根本还没入门。(1)异常值...

发表了文章 • 2017-05-27 15:04 • 0 条评论

2
推荐
2122
阅读

房产中介网站爬虫实战(Python BS4+多线程)(二)

本文的两大贡献:给出了爬取经纬度数据的方法。给出了搜房网(房天下)爬取的可实现解决方案。爬该网站的困难有二:其网页是压缩过的以及网站只给出100页的内容。本系列文章介绍了爬取链家和搜房网(房天下)数据的方法,此篇介绍房天下的部分。房产中介网站爬虫实战(Python BS4+多线程)(一) 房产中介网站爬虫实战(...

发表了文章 • 2017-05-27 14:49 • 0 条评论

7
推荐
3052
阅读

房产中介网站爬虫实战(Python BS4+多线程)(一)

本文的两大贡献:给出了爬取经纬度数据的方法。给出了搜房网(房天下)爬取的可实现解决方案。爬该网站的困难有二:其网页是压缩过的以及网站只给出100页的内容。本系列文章介绍了爬取链家和搜房网(房天下)数据的方法。房产中介网站爬虫实战(Python BS4+多线程)(一) 房产中介网站爬虫实战(Python BS4+多线程)(二)...

发表了文章 • 2017-05-25 08:48 • 0 条评论

1
推荐
1532
阅读

用Python爬取妹子图——基于BS4+多线程的处理

我有一个朋友,喜欢在一个图站看图(xie)片(zhen),光看就算了,他还有收集癖,想把网站的所有图片都下载下来,于是找我帮忙。本业余玩家经过【好久的】研究,终于实现,写成本教程。本人经济学专业,编程纯属玩票,不足之处请指出,勿喷,谢谢。本文分两部分:第一部分是基础方法,也就是单线程下爬图片的流程;第二部分...

发表了文章 • 2017-05-25 08:42 • 0 条评论