邓旭东HIT

个人公众号:大邓带你玩转Python 爱编程的营销小硕

3
推荐
2146
阅读

大邓送上的一大波福利来了~~~~

今天上传一份python编程学习方面的书单及资源。资源包括python入门、爬虫编写、数据分析、再到编程思想。1、入门python1、深入浅出学python强烈推荐入门看,入门的话看前半部分即可(本文中链接是英文书,如果看着不方便可去网上买本)2、像计算机科学家一样思考python3、可爱的python(中文版)4、编程小白的第一本Pyth...

发表了文章 • 2017-03-21 11:22 • 1 条评论

7
推荐
2868
阅读

【含视频教程】用python批量抓取简书用户信息

前几天在看崔庆才老师的教程,用Scrapy抓知乎用户信息,里面用到了递归。之前我写的爬虫都是将已知的固定数据的网址存到list中,然后遍历list中的网址。这次针对简书,我们使用递归来试一下。什么是递归程序(或函数)调用自身的编程技巧称为递归( recursion)。一个过程或函数在其定义或说明中有直接或间接调用自身的...

发表了文章 • 2017-03-19 01:08 • 2 条评论

1
推荐
1619
阅读

识别假货有绝招,先用python抓淘宝评论(附视频教程)

之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据,优点是可见容易且不宜被淘宝公司封锁;缺点是速度太慢。经过今天一天的钻研,终于学会分析数据包,而且淘宝评论的数据包都是以json格式传输的。除了学会抓包,还要会从json中...

发表了文章 • 2017-03-17 16:28 • 2 条评论

0
推荐
1384
阅读

爬豆瓣电影名的小案例2(附视频操作)

上一篇只是对一个网页进行的数=数据提取,还不算完整的的爬虫。我的理解是,一个初级的爬虫脚本应该包括三部分:网址处理器,用来提供抓取网址对象网页解析器,用来提取网页中稀疏分散着的目标数据数据存储器,用来保存提取的数据。上一节的小例子,只涉及到第二部分,第一部分不完整,第三部分没涉及。网址处理器做爬虫...

发表了文章 • 2017-03-16 05:23 • 0 条评论

7
推荐
1785
阅读

爬豆瓣电影名的小案例(附视频操作)

之前的文章一直都是代码,文字讲解很少。从今天开始,我想每天讲解一个爬虫的小案例,可能是爬豆瓣,可能是爬知乎,也可能去爬淘宝评论,不一而足。只要有趣有用就好。豆瓣是我很喜欢的平台,一般大家都会去豆瓣看影评,书评,根据评论决定自己是否观看电影或者入手书籍。所以有很多经济管理类的学生有这方面的数据采集...

发表了文章 • 2017-03-15 14:14 • 10 条评论

0
推荐
1369
阅读

如何在windows下,安装python3的scrapy包

【原文链接(英文)】How to install Scrapy 3.1.1rc3 for Python3 on Windows and use it in Pycharm不能再windows平台上为python3安装Scrapy库真的真的很蛋疼。这是是我发现的能在python3中运行scarpy的方法。安装方法如下:一、首先我推荐你先安装Conda,这是一个包管理器,当然也可以创建虚拟环境(总而言之,Conda=...

发表了文章 • 2017-03-15 13:28 • 0 条评论

0
推荐
1926
阅读

Python3写的一个抓取法大BBS论坛的爬虫

之前写了一个抓取BBS论坛所有帖子标题名的爬虫,不过该论坛已经把我封了,还是自己太年轻经验少,没有设置sleep time# -*- coding=utf-8 -*- from bs4 import BeautifulSoup import urllib.request import urllib import re #获取板块的链接 def get_Bankuan_link(url): link_list = [] #用来收集板块的链接 ...

发表了文章 • 2017-03-15 13:17 • 0 条评论

0
推荐
1319
阅读

python3爬取数据保存为csv问题

爬取Comparison of text editors网页中第一个table,代码如下。可是打开保存文件,发现csv如图所示                                         与自己设想的第一行是抬头名,记录信息是一行一行的。不一样啊...

发表了文章 • 2017-03-15 13:13 • 0 条评论

1
推荐
1372
阅读

用python统计水吧帖子的词频

中文分词效果好用又简单的包,我认为就是jieba了。主要功能是分词,其余功能请看jieba文档jieba.cut方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引...

发表了文章 • 2017-03-15 13:10 • 0 条评论

0
推荐
1456
阅读

python3.5生成自己的词性词典

由于朋友需要做文本分析,前提是要将文本中的名词和动词剔除掉,但没有现成的名词和动词的txt格式的词典。于是找来了一个英汉词典,根据每一行出现的adj、adv、n、prep等,使用正则表达式匹配需要的词性,并将其追加写入到txt文件中。建议大家使用python3.5,3的优点是避免了很多编码问题。3代表着python的未来,大家还...

发表了文章 • 2017-03-15 13:04 • 0 条评论

0
推荐
1445
阅读

使用selenium简单收集知乎的话题数据

当你在知乎上搜索“王宝强”时候,搜索结果页面的底部有个“更多”按钮,如下图遇到这个坑爹了,因为你发现点击“更多”按钮后,网址部分没有变化,但页面却加载了新的数据。怎么办????没法按照之前的 有规律的网址&page=number ,通过for循环依次遍历网页。在这里我不讲抓包,分析请求包。咱们就用生硬的方法,破解这...

发表了文章 • 2017-03-15 12:56 • 0 条评论

1
推荐
1363
阅读

如何计算两个文档的相似度(二)

【转自我爱自然语言】如何计算两个文档的相似度(二) | 我爱自然语言处理上一节我们介绍了一些背景知识以及gensim , 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,下一节再介绍其在课程图谱上的应用。二、gensim的安装和使用1、安装gensim依赖N...

发表了文章 • 2017-03-15 12:46 • 0 条评论

1
推荐
1605
阅读

用python计算两个文档的相似度(一)

[转自我爱自然语言]如何计算两个文档的相似度(一) | 我爱自然语言处理一、相关的知识点及参考资料这篇文章不会写很长,但是涉及的知识点蛮多,所以首先会在这里介绍相关的知识点,了解的同学可以一笑而过,不了解的同学最好能做一些预习,这对于你了解topic model以及gensim更有好处。如果以后时间允许,我可能会基于...

发表了文章 • 2017-03-15 12:42 • 0 条评论

2
推荐
3514
阅读

用python抓取淘宝某产品评论(附视频教程)

之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据,优点是可见容易且不宜被淘宝公司封锁;缺点是速度太慢。经过今天一天的钻研,终于学会分析数据包,而且淘宝评论的数据包都是以json格式传输的。除了学会抓包,还要会从json中...

发表了文章 • 2017-03-15 12:38 • 1 条评论

0
推荐
1446
阅读

学习永远不晚,只需做到更好

今天早上看到的这幅图,很有感慨,我是25岁开始学的编程,比一般的计算机专业18岁就开始,一开始学编程时候,也经常纠结“**岁开始学编程,会不会很晚?”。所以我也可以以自己的例子向大家传递“学习永远不迟,只需做得更好”精神,特将本人学习python的历程经验分享与大家听。​ ​我是09年读的本科,考了三次研究生,15年才...

发表了文章 • 2017-03-15 12:31 • 1 条评论