1
推荐
1631
阅读

【视频】手把手教你写抓美女的爬虫~

今天呢,大邓给大家写个爬图片的爬虫,毕竟之前写了验证码的爬虫,关于图片保存已经涉及了,那么咱们就来个图片爬虫吧。毕竟网上的数据除了文本,还有图片这一大类。凭啥装作看不见呢!!今天大邓就突破自己之前的界限,爬爬图片,有益身心。O(∩_∩)O网站:http://desk.zol.com.cn/我们直接打开美女标签的网址,打开如下 ...

发表了文章 • 2017-04-04 23:28 • 1 条评论

4
推荐
2528
阅读

用词云图解读“于欢案”

解读网民意见今天接着上一期的于欢案爬虫,进行一下文本分析,制作出绚丽的词云图。从上图中我们看出,网民评论中出现最多的几个词语有:法律、警察、为什么、公正、作为、母亲、高利贷、希望、如果、国家、司法、公安、治国等等对于于欢判决,网民觉得法院判决结果不合情合理,对此也反映在这幅图中的“法律”“公正”“司法...

发表了文章 • 2017-03-29 20:26 • 2 条评论

2
推荐
1900
阅读

于欢案之网民的意见(1)?

在那种情景下,是个人都很难理性的。于欢与其母人身自由失去了,生命权生存权尊严的权利面临着随时被侵害的风险,在这种情况下,为了自己的母亲,于欢做了他应该做的事情,我觉得他没有做错。他的行为合情:于欢因为母亲受辱,做出了我们都认为对的事情,儿子就该这样做,符合孝道为人子的行为规范,他的行为,合情。他...

发表了文章 • 2017-03-28 10:49 • 0 条评论

1
推荐
1372
阅读

用python统计水吧帖子的词频

中文分词效果好用又简单的包,我认为就是jieba了。主要功能是分词,其余功能请看jieba文档jieba.cut方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引...

发表了文章 • 2017-03-15 13:10 • 0 条评论

0
推荐
1445
阅读

使用selenium简单收集知乎的话题数据

当你在知乎上搜索“王宝强”时候,搜索结果页面的底部有个“更多”按钮,如下图遇到这个坑爹了,因为你发现点击“更多”按钮后,网址部分没有变化,但页面却加载了新的数据。怎么办????没法按照之前的 有规律的网址&page=number ,通过for循环依次遍历网页。在这里我不讲抓包,分析请求包。咱们就用生硬的方法,破解这...

发表了文章 • 2017-03-15 12:56 • 0 条评论

0
推荐
3761
阅读

用Python抓取百度地图里的店名,地址和联系方式

昨晚看到一篇爬取百度地图信息的的代码,我更改了城市,关键词,页码等,完成了获取有关“筛网”店铺的信息。代码如下:import requests import re import csv import time def BusinessFromBaiduDitu(citycode = '287',key_word='筛网',pageno=0): parameter = { "newmap": "1", "reqflag": "pcmap",...

发表了文章 • 2017-03-15 09:52 • 0 条评论

1
推荐
1423
阅读

Python3爬虫入门实战(一)

本实战课程主要用到urllib.request(或者requests) 、 BeautifulSoup 、Selenium这三种库。urllib.request(或者requests) 用来访问网页,这个是死套路,记住就可以了。BeautifulSoup 用来从网页结构中定位自己想要的内容,并获取到会了上面的两个个库,一般的不需要登录验证的小网站你都能爬了。而抓登录验证的网站就...

发表了文章 • 2017-03-15 09:43 • 2 条评论

0
推荐
1118
阅读

Python3爬虫入门实战(一)(修改)

最近发现requests比python3中的urllib.request(python2中的urllib,urllib2好用多了)重复昨天的工作,以后课程尽量用requests库# -*- coding=utf-8 -*- import requests from bs4 import BeautifulSoup import time num = 1 # 用来计数,计算爬取的书一共有多少本 start_time = time.time() # 计算爬虫爬取过程时间...

发表了文章 • 2017-03-15 09:40 • 0 条评论

1
推荐
1262
阅读

Python3之百度贴吧小爬虫

华为贴吧爬虫import urllib.request from bs4 import BeautifulSoup import csv import time import random #计算运行时间 start_time = time.time() #保存到csv中 csvFile = open(r"E:\Python\Projects\贴吧\华为\huawei.csv",'a+',newline='') writer = csv.writer(csvFile)writer.writerow(('posting_num','postin...

发表了文章 • 2017-03-14 10:09 • 0 条评论

1
推荐
2579
阅读

用python实现简单的文本情感分析

情感分析就是分析一句话说得是很主观还是客观描述,分析这句话表达的是积极的情绪还是消极的情绪。原理比如这么一句话:“这手机的画面极好,操作也比较流畅。不过拍照真的太烂了!系统也不好。”① 情感词要分析一句话是积极的还是消极的,最简单最基础的方法就是找出句子里面的情感词,积极的情感词比如:赞,好,顺手,...

发表了文章 • 2017-03-14 10:04 • 0 条评论

2
推荐
2339
阅读

8行代码实现微信聊天机器人

wow,干货,直接上代码!!api_key是图灵机器人的api,请大家自行注册获取。下面代码仅仅是wxpy一小部分功能,敬请期待!!from wxpy import *api_key = '***************************'#微信登录robot = Robot()#信息注册@robot.register()def Reply(msg):    reply = Tuling(api_key=api_key).reply_text(ms...

发表了文章 • 2017-03-10 14:15 • 3 条评论

0
推荐
1489
阅读

python贴吧脚本

第一次写封装的脚本,里面不规范的地方很多,class、self还只是学到皮毛,所以写的很渣。本代码只适合初入python世界,想抓点数据的人。脚本链接:http://pan.baidu.com/s/1kVjR5Q3这个脚本可以实现功能如下:1、输入贴吧名,即可获得该贴吧的关注数,帖子数,群组数,吧务管理团队等2、输入用户昵称名,即可获得该用户...

发表了文章 • 2017-03-10 13:54 • 0 条评论