自然语言处理库之snowNLP

浏览: 2252

中文自然语言处理

之前看到知乎有一篇《哪些python库让你相见恨晚?》

https://www.zhihu.com/question/24590883

里面有几个中文的库,分别是jieba、snownlp、textgrocery。jieba大家已经很熟悉了,基本上分词都会用到jieba,速度快,分词页挺准的。

我之前页写过对文本进行情绪分析的文章,用建好的词典,通过一个公式计算,得出正负面情绪分值。当时写这篇文章时,不知道其实是有中文情感分析的库。

今天我就简单介绍下snowNLP,可以分词,标注,还可以进行情绪分析。

snowNLP介绍

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

示例

1、分词

01-分词.PNG

2、词性标注

02-词性标注.PNG

3、断句

03-断句.PNG


4、情绪判断

返回值为正面情绪的概率,

越接近1表示正面情绪

越接近0表示负面情绪

04-情绪分类1.PNG

5、拼音

05-拼音.PNG


6、繁体转简体

06-繁体简体转换.PNG


7、关键词抽取

07-关键词提取.PNG


8、概括总结文意

08-概括.PNG


9、信息量衡量

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

TF词频越大越重要,但是文中会的“的”,“你”等无意义词频很大,却信息量几乎为0,这种情况导致单纯看词频评价词语重要性是不准确的。因此加入了idf

IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t越重要

TF-IDF综合起来,才能准确的综合的评价一词对文本的重要性。

09-tfidf.PNG


10、文本相似性

10-文本相似性.PNG


更多内容

爬虫

  初识Python的GUI编程

  爬虫实战视频专辑

【视频】手把手教你抓美女~

 当爬虫遭遇验证码,怎么办

 知易行难

 用词云图解读“于欢案”

【视频】于欢案之网民的意见(1)?

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

【视频教程】用python批量抓取简书用户信息

  爬豆瓣电影名的小案例(附视频操作)

  爬豆瓣电影名的小案例2(附视频操作)

  用Python抓取百度地图里的店名,地址和联系方式

文本分析

  python居然有情感??真的吗??

  数说中南大学研究生感情状况及择偶观  

  用gensim库做文本相似性分析

  基于共现发现人物关系的python实现

  用python计算两文档相似度

神奇的python

 怜香惜玉,我用python帮助办公室文秘

 逆天的量化交易分析库-tushare

 开扒皮自己微信的秘密

 8行代码实现微信聊天机器人

 使用Python登录QQ邮箱发送QQ邮件

推荐 3
本文由 邓旭东HIT 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

3 个评论

加油,越来越多了
老师,写的不错,视频或者源码能给发下吗
这篇代码比较简单,我就没有保存并上传到网盘里

要回复文章请先登录注册