6
推荐
2150
阅读

Python可以做哪些好玩的事之将喜欢的博客整理成pdf

最近在学习ETL,于是在天善关键词搜索,光看目录就已经觉得很牛逼了~ <数据仓库设计、ETL设计框架>等等。作为一个爱学习的人,看到这么多有内涵的博客,当然想学习新技能(flag+1),但是我更习惯在手机上浏览,如果我想在手机上看,网页端显然是不太方便的,所以果断转换成pdf存一份(说干就干)1.采集数据有一段时...

发表了文章 • 2018-02-05 19:52 • 8 条评论

11
推荐
2779
阅读

从数据角度探究《前任3》为什么这么火爆

1.《前任3》为什么这么火爆截止发文时《前任3》票房15.50亿,成为一匹黑马,我习惯性的去豆瓣看了评分豆瓣上8万多人只打出了5.8的评分,其中1星-3星占比72.6%,那么问题来了,在绝大多数豆瓣粉丝都认为是“烂片”的情况下,究竟是什么让《前任3》票房意外火爆呢?为了更能说明问题,通过一些舆情监测软件,我参考了一些社...

发表了文章 • 2018-01-17 21:07 • 3 条评论

10
推荐
2941
阅读

Python采集微博热评进行情感分析祝你狗年脱单

Ps: 重要的事情说三遍!!! 结尾有彩蛋,结尾有彩蛋,结尾有彩蛋。如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据库,这就需要对数据进行去重处理,记录上次爬取的状态,就可以实现在爬虫中断后,可以快速继续上次的状态,实现增量爬...

发表了文章 • 2018-01-10 18:00 • 4 条评论

2
推荐
1797
阅读

通过Ajax请求的网页数据采集详解

Ajax = 异步JavaScript和XML标准通用标记语言Ajax 是一种用于创建快速动态网页的技术。Ajax是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。对于使用Ajax返回的数据我们通常有两种方式采集数据使用自动化测试工具chromedriver进行采集通过抓包找到网页发送Ajax发送请求并返回的数据查看返回的...

发表了文章 • 2017-12-12 20:31 • 0 条评论

2
推荐
2392
阅读

使用Selenium抓取QQ空间好友说说

代码参考http://www.jianshu.com/p/a6769dccd34d刚接触Selenium的戳这里Selenium与PhantomJSPS:代码的不足在于只能抓取第一页的说说内容,代码的改进之处在于增加了与数据库的交互,进行了存储1.安装Seleniumpip install Selenium 2.在Python中使用Selenium获取QQ空间好友说说分析网页结构说说内容发表说说的时间3.代码...

发表了文章 • 2017-10-30 14:21 • 2 条评论

1
推荐
1962
阅读

Selenium 的使用

1.网站模拟登录# douban.py from selenium import webdriver from selenium.webdriver.common.keys import Keys import time driver = webdriver.PhantomJS() driver.get("http://www.douban.com") # 输入账号密码 driver.find_element_by_name("form_email").send_keys("xxxxx@xxxx.com") driver.find_element_by_na...

发表了文章 • 2017-10-29 21:46 • 0 条评论

1
推荐
2772
阅读

Selenium与PhantomJS

1.SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据...

发表了文章 • 2017-10-29 14:22 • 0 条评论

4
推荐
2422
阅读

爬取拉勾网招聘信息并使用xlwt存入Excel

xlwt 1.3.0xlwt 文档xlrd 1.1.0文档pdf下载python操作excel之xlrd1.Python模块介绍 - xlwt ,什么是xlwt?Python语言中,写入Excel文件的扩展工具。相应的有扩展包xlrd,专门用于excel读取。可以实现指定表单、指定单元格的写入。2.xlwt使用导入模块import xlwt 创建workbook,即创建excel,后来要进行保存workbook = xlwt...

发表了文章 • 2017-10-17 20:58 • 0 条评论

0
推荐
2603
阅读

Spider与OpenPyXL的结合

OpenPyXL的API文档1.OpenPyXL基础操作引入Workbook这个类,然后调用from openpyxl import Workbook wb = Workbook() 通过openpyxl.workbook.Workbook.active()调用得到正在运行的工作表ws = wb.active 该函数调用工作表的索引(_active_sheet_index),默认是0。除非你修改了这个值,否则你使用该函数一直是在对第一张工作...

发表了文章 • 2017-10-17 20:56 • 0 条评论

1
推荐
2713
阅读

Python可以做哪些好玩的事之自动刷票

目标网站:http://best.zhaopin.com/?sid=121128100&site=sou1.分析先手动投票查看网页提交的请求点击投票网页提交的请求投票成功返回的json数据,可以看到是result:1为公司投票时提交的参数点击'为我点赞'网页提交的请求点赞时提交的参数通过分析可以看到网页实际上并没有针对同一IP的投票进行限制,所以不需要进...

发表了文章 • 2017-10-17 20:54 • 2 条评论

0
推荐
2735
阅读

Python网络爬虫(八) - 利用有道词典实现一个简单翻译程序

目录:Python网络爬虫(一)- 入门基础Python网络爬虫(二)- urllib爬虫案例Python网络爬虫(三)- 爬虫进阶Python网络爬虫(四)- XPathPython网络爬虫(五)- Requests和Beautiful SoupPython网络爬虫(六)- Scrapy框架Python网络爬虫(七)- 深度爬虫CrawlSpiderPython网络爬虫(八) - 利用有道词典实现一个简单翻...

发表了文章 • 2017-10-16 17:55 • 0 条评论

0
推荐
7123
阅读

Python网络爬虫(七)- 深度爬虫CrawlSpider

目录:Python网络爬虫(一)- 入门基础Python网络爬虫(二)- urllib爬虫案例Python网络爬虫(三)- 爬虫进阶Python网络爬虫(四)- XPathPython网络爬虫(五)- Requests和Beautiful SoupPython网络爬虫(六)- Scrapy框架Python网络爬虫(七)- 深度爬虫CrawlSpiderPython网络爬虫(八) - 利用有道词典实现一个简单翻...

发表了文章 • 2017-10-16 17:55 • 1 条评论

0
推荐
49992
阅读

Python网络爬虫(六)- Scrapy框架

目录:Python网络爬虫(一)- 入门基础Python网络爬虫(二)- urllib爬虫案例Python网络爬虫(三)- 爬虫进阶Python网络爬虫(四)- XPathPython网络爬虫(五)- Requests和Beautiful SoupPython网络爬虫(六)- Scrapy框架Python网络爬虫(七)- 深度爬虫CrawlSpiderPython网络爬虫(八) - 利用有道词典实现一个简单翻...

发表了文章 • 2017-10-16 17:54 • 0 条评论

0
推荐
3018
阅读

Python网络爬虫(五)- Requests和Beautiful Soup

目录:Python网络爬虫(一)- 入门基础Python网络爬虫(二)- urllib爬虫案例Python网络爬虫(三)- 爬虫进阶Python网络爬虫(四)- XPathPython网络爬虫(五)- Requests和Beautiful SoupPython网络爬虫(六)- Scrapy框架Python网络爬虫(七)- 深度爬虫CrawlSpiderPython网络爬虫(八) - 利用有道词典实现一个简单翻...

发表了文章 • 2017-10-16 17:49 • 0 条评论

0
推荐
2610
阅读

Python网络爬虫(四)- XPath

目录:Python网络爬虫(一)- 入门基础Python网络爬虫(二)- urllib爬虫案例Python网络爬虫(三)- 爬虫进阶Python网络爬虫(四)- XPathPython网络爬虫(五)- Requests和Beautiful SoupPython网络爬虫(六)- Scrapy框架Python网络爬虫(七)- 深度爬虫CrawlSpiderPython网络爬虫(八) - 利用有道词典实现一个简单翻...

发表了文章 • 2017-10-16 17:49 • 0 条评论