罗罗攀的博客

Python爬虫爱好者

1
推荐
1717
阅读

机器学习实战之朴素贝叶斯

在学习朴素贝叶斯分类模型之前,我们回顾一下之前学习的KNN和决策树,读者本人的总结:不同的机器学习方法有着不同的假设和理论进行支撑,而这些假设和理论在很大程度上体现了该算法的优缺点。KNN:在样本空间中,相同的类型数据在空间呈聚集状态,也就是距离会靠近,基于这个假设,只需要对测试样本与训练样本进行距离...

发表了文章 • 2018-06-10 16:57 • 0 条评论

0
推荐
1647
阅读

机器学习实战之决策树

决策树的算法可谓是贴近我们的生活,通过下面的案例,你就会发现我们每天都在有意无意的使用着决策树算法(好厉害的样子)。小明同学每天早上都要去学校,可步行、乘公交和坐隔壁老王叔叔的车(皮一下很开心)。这时,小明就开始做决策了:首先看天气,不下雨时就选择步行去学校;下雨时就看隔壁老王叔叔是否有空,有空...

发表了文章 • 2018-06-09 19:52 • 0 条评论

5
推荐
1867
阅读

机器学习实战之KNN算法

本系列教程为《机器学习实战》的读书笔记。首先,讲讲写本系列教程的原因:第一,《机器学习实战》的代码由Python2编写,有些代码在Python3上运行已会报错,本教程基于Python3进行代码的修订;第二:之前看了一些机器学习的书籍,没有进行记录,很快就忘记掉了,通过编写教程也是一种复习的过程;第三,机器学习相对于爬...

发表了文章 • 2018-06-08 16:15 • 2 条评论

9
推荐
1836
阅读

勿忘2017,前行2018

    时光荏苒,伴随着朋友圈的雪景,离18年也就更进了一步。总是到年末,才知道时间飞逝,才盼时光不老,你我不散。但无论2017年如何,也都该给它一个答复,或许不是一个完美的句号,可它确实已经悄悄而过。2017总结    对于经常写总结的人来说,可能写个年终总结很简单(也就是对一年的复盘)。但...

发表了文章 • 2018-01-25 22:18 • 10 条评论

0
推荐
1243
阅读

MySQL学习之联结表

内联结是inner外联结分为左右跟着程老哥学习下MySQL,看到联结表的时候还是很懵逼的,我们用案例看看,这几个联结方式的不同。首先定义了简单的二个表,一个是用户名的个人信息user,一个是用户名的考试成绩score,看看表的结构。内联结内联结是二个表的交集,这里通过name字段匹配,就只能返回张三李四的信息(因为二个...

发表了文章 • 2017-10-12 15:10 • 0 条评论

0
推荐
1370
阅读

MongoDB安装

非关系性数据库NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集...

发表了文章 • 2017-10-12 15:09 • 0 条评论

1
推荐
1427
阅读

简书非官方大数据新思路

爬虫小分队的终极大任务就是简书大数据,以前也做过一次,阅读量也还可以。前段时间简书也是融资成功,简书也有一些改动,这次做分析也是一个不错的机会。专题URL这部分是没有变得,因为简书没有用户管理的url,我们只能从专题URL入手,依旧是热门和城市。专题管理员URL这部分就是新的思路,之前是爬取专题文章的作者,...

发表了文章 • 2017-10-12 15:09 • 0 条评论

3
推荐
1954
阅读

简书风云榜

由于开学原因,数据爬取中断,共爬取了347294条数据。爬取时间为2月14号。以粉丝量进行排序排名,列出简书千人风云榜。此文章不代表简书官方数据。签约作者总共爬取了93个签约作者,前100名中签约作者有69个,其他为31个(还有一些为简书官方工作号(爬取信息时未考虑)):比你优秀的人比你还努力,还是好好学习吧。粉...

发表了文章 • 2017-10-12 15:08 • 2 条评论

0
推荐
1232
阅读

简书非官方大数据(三)

最近回老家了一趟,爬取简书的程序也就停下来了,回到长沙继续爬,很高兴的爬到了300W左右,导出来一看,好多重复的,我记得我说过设置过的,拿到代码一看,晕:插入的是author_infos表,但判断却是author_url表,然后我就打算去重后调用url爬取用户详细信息,可耐mongodb去重不会,自己百度了下也没搞明白;再者,向右...

发表了文章 • 2017-10-12 15:07 • 0 条评论

0
推荐
1326
阅读

简书非官方大数据(二)

PS:这条很重要,我的文章中所说的大数据并不是现在很火的大数据话题,前几天看过一篇大数据的文章,简单来说:当一台电脑没法处理或你现在的条件没法处理的数据就可以谈的上大数据了,这个没有指定的数据量。爬虫爬了一晚上,到目前为止已爬取170W+,大早上想了一下,效率不够,我又不会分布式爬虫,也只好停下来改代码...

发表了文章 • 2017-10-12 15:06 • 0 条评论

0
推荐
1263
阅读

简书非官方大数据(一)

昨天安稳的开始了Python数据分析的学习,向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析,像我这种爱好学习(不行,让我吐一下),当然是答应了。说实话,这个实战对我来说,难度很大:1 数据的获取 :我爬取最大的数据也就是20W+,简单的scrapy还能写一点,但简书用户量巨大,第一次尝试百万级甚至千万级数据...

发表了文章 • 2017-10-12 15:06 • 0 条评论

0
推荐
1373
阅读

Python实现手绘功能

手绘图确实很好看,但对于手残党的我,只能呵呵一笑,今天就用代码来实现手绘功能,把普通的图片转换为手绘图片。代码from PIL import Image import numpy as np a = np.asarray(Image.open(r'C:\Users\luopan\Desktop\1.jpg').convert('L')).astype('float') depth = 10. # (0-100) grad = np.gradient(a) # 取图像...

发表了文章 • 2017-10-12 15:05 • 0 条评论

0
推荐
1323
阅读

GIF图倒序播放

今天在爬虫群,看到一个有趣的Python代码,可以把GIF图倒序播放,代码很简单,首先要安装pillow库。代码from PIL import Image,ImageSequence with Image.open('C:/Users/LP/Desktop/timg.gif') as im: if im.is_animated: #判断是否为动态 frames = [f.copy() for f in ImageSequence.Iterator(im)] #把每...

发表了文章 • 2017-10-12 15:03 • 0 条评论

0
推荐
1372
阅读

微信好友全头像

直接上图代码import itchat import math import PIL.Image as Image import os itchat.auto_login() friends = itchat.get_friends(update=True)[0:] user = friends[0]["UserName"] num = 0 for i in friends: img = itchat.get_head_img(userName=i["UserName"]) fileImage = open('文件夹路径' + "/" + str...

发表了文章 • 2017-10-12 15:03 • 0 条评论

1
推荐
2032
阅读

Django开发之简书推荐作者可视化

折腾了几天,终于完成了第一个web开发项目,其中乐趣多多,坑也是巨多,听我娓娓道来之前,按例给大家上网站链接:简书推荐作者可视化由于本人使用的腾讯学生机(小霸王),请稍作等待,不想等待的小伙伴们,直接看下图:统计罗罗攀搜索项目概述本项目结合数据的采集、预处理、存储、使用等技术,利用Python语言实现功能...

发表了文章 • 2017-10-12 15:01 • 1 条评论