Python案例文章分类邓旭东HIT - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

1

推荐

1631

阅读

【视频】手把手教你写抓美女的爬虫~

今天呢，大邓给大家写个爬图片的爬虫，毕竟之前写了验证码的爬虫，关于图片保存已经涉及了，那么咱们就来个图片爬虫吧。毕竟网上的数据除了文本，还有图片这一大类。凭啥装作看不见呢！！今天大邓就突破自己之前的界限，爬爬图片，有益身心。O(∩_∩)O网站：http://desk.zol.com.cn/我们直接打开美女标签的网址，打开如下 ...

发表了文章 • 2017-04-04 23:28 • 1 条评论

4

推荐

2528

阅读

用词云图解读“于欢案”

解读网民意见今天接着上一期的于欢案爬虫，进行一下文本分析，制作出绚丽的词云图。从上图中我们看出，网民评论中出现最多的几个词语有：法律、警察、为什么、公正、作为、母亲、高利贷、希望、如果、国家、司法、公安、治国等等对于于欢判决，网民觉得法院判决结果不合情合理，对此也反映在这幅图中的“法律”“公正”“司法...

发表了文章 • 2017-03-29 20:26 • 2 条评论

2

推荐

1900

阅读

于欢案之网民的意见（1）？

在那种情景下，是个人都很难理性的。于欢与其母人身自由失去了，生命权生存权尊严的权利面临着随时被侵害的风险，在这种情况下，为了自己的母亲，于欢做了他应该做的事情，我觉得他没有做错。他的行为合情：于欢因为母亲受辱，做出了我们都认为对的事情，儿子就该这样做，符合孝道为人子的行为规范，他的行为，合情。他...

发表了文章 • 2017-03-28 10:49 • 0 条评论

1

推荐

1372

阅读

用python统计水吧帖子的词频

中文分词效果好用又简单的包，我认为就是jieba了。主要功能是分词，其余功能请看jieba文档jieba.cut方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引...

发表了文章 • 2017-03-15 13:10 • 0 条评论

0

推荐

1445

阅读

使用selenium简单收集知乎的话题数据

当你在知乎上搜索“王宝强”时候，搜索结果页面的底部有个“更多”按钮，如下图遇到这个坑爹了，因为你发现点击“更多”按钮后，网址部分没有变化，但页面却加载了新的数据。怎么办？？？？没法按照之前的有规律的网址&page=number ，通过for循环依次遍历网页。在这里我不讲抓包，分析请求包。咱们就用生硬的方法，破解这...

发表了文章 • 2017-03-15 12:56 • 0 条评论

0

推荐

3761

阅读

昨晚看到一篇爬取百度地图信息的的代码，我更改了城市，关键词，页码等，完成了获取有关“筛网”店铺的信息。代码如下：import requests import re import csv import time def BusinessFromBaiduDitu(citycode = '287',key_word='筛网',pageno=0): parameter = { "newmap": "1", "reqflag": "pcmap",...

发表了文章 • 2017-03-15 09:52 • 0 条评论

1

推荐

1423

阅读

Python3爬虫入门实战（一）

本实战课程主要用到urllib.request（或者requests）、 BeautifulSoup 、Selenium这三种库。urllib.request（或者requests）用来访问网页，这个是死套路，记住就可以了。BeautifulSoup 用来从网页结构中定位自己想要的内容，并获取到会了上面的两个个库，一般的不需要登录验证的小网站你都能爬了。而抓登录验证的网站就...

发表了文章 • 2017-03-15 09:43 • 2 条评论

0

推荐

1118

阅读

Python3爬虫入门实战（一）（修改）

最近发现requests比python3中的urllib.request（python2中的urllib，urllib2好用多了）重复昨天的工作，以后课程尽量用requests库# -*- coding=utf-8 -*- import requests from bs4 import BeautifulSoup import time num = 1 # 用来计数，计算爬取的书一共有多少本 start_time = time.time() # 计算爬虫爬取过程时间...

发表了文章 • 2017-03-15 09:40 • 0 条评论

1

推荐

1262

阅读

Python3之百度贴吧小爬虫

华为贴吧爬虫import urllib.request from bs4 import BeautifulSoup import csv import time import random #计算运行时间 start_time = time.time() #保存到csv中 csvFile = open(r"E:\Python\Projects\贴吧\华为\huawei.csv",'a+',newline='') writer = csv.writer(csvFile)writer.writerow(('posting_num','postin...

发表了文章 • 2017-03-14 10:09 • 0 条评论

1

推荐

2579

阅读

用python实现简单的文本情感分析

情感分析就是分析一句话说得是很主观还是客观描述，分析这句话表达的是积极的情绪还是消极的情绪。原理比如这么一句话：“这手机的画面极好，操作也比较流畅。不过拍照真的太烂了！系统也不好。”① 情感词要分析一句话是积极的还是消极的，最简单最基础的方法就是找出句子里面的情感词，积极的情感词比如：赞，好，顺手，...

发表了文章 • 2017-03-14 10:04 • 0 条评论

2

推荐

2339

阅读

8行代码实现微信聊天机器人

wow，干货，直接上代码！！api_key是图灵机器人的api，请大家自行注册获取。下面代码仅仅是wxpy一小部分功能，敬请期待！！from wxpy import *api_key = '***************************'#微信登录robot = Robot()#信息注册@robot.register()def Reply(msg): reply = Tuling(api_key=api_key).reply_text(ms...

发表了文章 • 2017-03-10 14:15 • 3 条评论

0

推荐

1489

阅读

python贴吧脚本

第一次写封装的脚本，里面不规范的地方很多，class、self还只是学到皮毛，所以写的很渣。本代码只适合初入python世界，想抓点数据的人。脚本链接：http://pan.baidu.com/s/1kVjR5Q3这个脚本可以实现功能如下：1、输入贴吧名，即可获得该贴吧的关注数，帖子数，群组数，吧务管理团队等2、输入用户昵称名，即可获得该用户...

发表了文章 • 2017-03-10 13:54 • 0 条评论