邓旭东HIT

个人公众号:大邓带你玩转Python 爱编程的营销小硕

1
推荐
1849
阅读

用Python实现贝叶斯定理

作者:邓旭东HIT链接:https://zhuanlan.zhihu.com/p/27012448来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。写作说明上一期我们讲了贝叶斯分类器,其中有很多的概率基础知识和贝叶斯定理。但是讲解的很没有重点,前半部分讲的是贝叶斯基础知识,最后很突兀的插进来一个文本分析-贝叶...

发表了文章 • 2017-05-20 11:57 • 0 条评论

1
推荐
4641
阅读

抓取单博主的所有微博及其评论

这是个简单又复杂的爬虫。抓取逻辑很简单,但任务实现会略微繁琐。但只要思路清楚,还是很简单的。对象-路易威登微博网址:http://m.weibo.cn/u/1836003984 红色部分是微博账号的id 爬取思路1、我们先写一个微博的所有评论,看网址规律是什么样子,有没有一些奇怪的参数,这些参数要到哪里获取?2、依次类推,发现爬所有...

发表了文章 • 2017-05-13 20:13 • 0 条评论

2
推荐
4162
阅读

如何对csv文件中的文本数据进行分析处理

之前为了大家可以将收集的数据便于分析,建议大家使用csv这种表样式数据格式进行保存。但是咱们爬数据时,除了一些数值类,大部分数据是文本,如何操作csv每一行中的文本数据呢?例如我有 局座哭了.csv,我们如何对comment列进行数据清理,只保留中文。操作数据时,如何保持原来的数据结构(比如分词处理后,csv文件除了...

发表了文章 • 2017-05-13 20:11 • 1 条评论

0
推荐
2972
阅读

简单的中文分词算法

书籍简介本书是一本研究汉语自然语言处理方面的基础性、综合性书籍,涉及NLP的语言理论、算法和工程实践的方方面面,内容繁杂。 本书包括NLP的语言理论部分、算法部分、案例部分,涉及汉语的发展历史、传统的句法理论、认知语言学理论。需要指出的是,本书是系统介绍认知语言学和算法设计相结合的中文NLP书籍,并从认知...

发表了文章 • 2017-05-13 20:06 • 0 条评论

0
推荐
1567
阅读

selenium驱动器配置详解

我先声明下,所有的路径我都没有搞系统环境路径,这东西挺麻烦的,我也懒得搞。毕竟,现在要解决0和1问题,至于1还是1+,那就留给大家自己再去探索吧,嘿嘿。闲话扯多了,现在进入正题。上图文selenium+ChromeDriver现在写作的电脑是window10,chrome版本58。因此我下载了chromedriver2.29。所有chromedriver下载地址http...

发表了文章 • 2017-05-13 20:01 • 0 条评论

4
推荐
2486
阅读

文本分析之制作网络关系图

改了好久,不知道怎么回事,这篇文章始终排版有问题。大家对人物网络分析感兴趣的,可移步到知乎上看我的文章https://zhuanlan.zhihu.com/p/26531225这个图我没有用到gephi或者其他的工具,是我用python纯脚本运行出来的。简单的实现了封装,大家有兴趣可以下载下脚本,运行下。原理知识我就简单说下原理吧,先刻画一个...

发表了文章 • 2017-04-24 10:29 • 1 条评论

0
推荐
2196
阅读

Could not connect to Redis at 127.0.0.1:6379: Connection refused

今天看崔庆才老师的爬虫教程中redis安装一、mac安装用brew install redis二、启动命令行中输入redis-cli弹出Could not connect to Redis at 127.0.0.1:6379: Connection refused网上搜索了下解决办法。https://www.douban.com/note/299598252/文中的分析是没有启动redis,参照该文启动redis三、启动redis首先cd到redis.c...

发表了文章 • 2017-04-14 22:36 • 0 条评论

3
推荐
2229
阅读

自然语言处理库之snowNLP

中文自然语言处理之前看到知乎有一篇《哪些python库让你相见恨晚?》https://www.zhihu.com/question/24590883里面有几个中文的库,分别是jieba、snownlp、textgrocery。jieba大家已经很熟悉了,基本上分词都会用到jieba,速度快,分词页挺准的。我之前页写过对文本进行情绪分析的文章,用建好的词典,通过一个公式计算...

发表了文章 • 2017-04-12 22:58 • 3 条评论

10
推荐
3311
阅读

数说中南大学研究生感情状况及择偶观

中南大学简介中南大学(Central South University),简称“中南(CSU)“,坐落在中国历史文化名城——湖南省长沙市,是中央直管、教育部直属的湖南省唯一副部级大学。中南大学是首批211工程、985工程建设高校。是一所以工科和医学为特色,涵盖理学、文学、法学、经济学、管理学、哲学、教育学、历史学、艺术学,辐射军事学...

发表了文章 • 2017-04-11 10:55 • 0 条评论

1
推荐
1553
阅读

不会写爬虫的快来Goose一下

今天遇到一个好玩的库,用来解析新闻类网页特别好用。基本上你不用分析网页,不用标签定位。直接告诉脚本你想爬的url,goose就会将清理好的数据返回给你。缺点是goose不支持python3,为此我特点装了python2.7尝试写今天这篇文章。goose项目https://github.com/grangier/python-goose直接上代码截图1、新闻标题2、新闻发...

发表了文章 • 2017-04-06 08:56 • 1 条评论

1
推荐
1593
阅读

【视频】手把手教你写抓美女的爬虫~

今天呢,大邓给大家写个爬图片的爬虫,毕竟之前写了验证码的爬虫,关于图片保存已经涉及了,那么咱们就来个图片爬虫吧。毕竟网上的数据除了文本,还有图片这一大类。凭啥装作看不见呢!!今天大邓就突破自己之前的界限,爬爬图片,有益身心。O(∩_∩)O网站:http://desk.zol.com.cn/我们直接打开美女标签的网址,打开如下 ...

发表了文章 • 2017-04-04 23:28 • 1 条评论

4
推荐
2473
阅读

用词云图解读“于欢案”

解读网民意见今天接着上一期的于欢案爬虫,进行一下文本分析,制作出绚丽的词云图。从上图中我们看出,网民评论中出现最多的几个词语有:法律、警察、为什么、公正、作为、母亲、高利贷、希望、如果、国家、司法、公安、治国等等对于于欢判决,网民觉得法院判决结果不合情合理,对此也反映在这幅图中的“法律”“公正”“司法...

发表了文章 • 2017-03-29 20:26 • 2 条评论

2
推荐
1852
阅读

于欢案之网民的意见(1)?

在那种情景下,是个人都很难理性的。于欢与其母人身自由失去了,生命权生存权尊严的权利面临着随时被侵害的风险,在这种情况下,为了自己的母亲,于欢做了他应该做的事情,我觉得他没有做错。他的行为合情:于欢因为母亲受辱,做出了我们都认为对的事情,儿子就该这样做,符合孝道为人子的行为规范,他的行为,合情。他...

发表了文章 • 2017-03-28 10:49 • 0 条评论

3
推荐
2696
阅读

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

今天带给大家的是一款爬虫神器-selenium,使用该库可以对付绝大部分的网站,不论这网站反爬策略多么的厉害,在selenium面前经常失效。selenium是什么?官网中介绍seleniumSelenium automates browsers. That's it! What you do with that power is entirely up to you. Primarily, it is for automating web application...

发表了文章 • 2017-03-22 11:42 • 0 条评论

1
推荐
1995
阅读

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的。cookie是什么某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。目前有些 Cookie 是临时的,有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定...

发表了文章 • 2017-03-21 14:24 • 3 条评论