中文自然语言处理
之前看到知乎有一篇《哪些python库让你相见恨晚?》
https://www.zhihu.com/question/24590883
里面有几个中文的库,分别是jieba、snownlp、textgrocery。jieba大家已经很熟悉了,基本上分词都会用到jieba,速度快,分词页挺准的。
我之前页写过对文本进行情绪分析的文章,用建好的词典,通过一个公式计算,得出正负面情绪分值。当时写这篇文章时,不知道其实是有中文情感分析的库。
今天我就简单介绍下snowNLP,可以分词,标注,还可以进行情绪分析。
snowNLP介绍
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。
示例
1、分词
2、词性标注
3、断句
4、情绪判断
返回值为正面情绪的概率,
越接近1表示正面情绪
越接近0表示负面情绪
5、拼音
6、繁体转简体
7、关键词抽取
8、概括总结文意
9、信息量衡量
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
TF词频越大越重要,但是文中会的“的”,“你”等无意义词频很大,却信息量几乎为0,这种情况导致单纯看词频评价词语重要性是不准确的。因此加入了idf
IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t越重要
TF-IDF综合起来,才能准确的综合的评价一词对文本的重要性。
10、文本相似性
更多内容
爬虫
初识Python的GUI编程
爬虫实战视频专辑
【视频】手把手教你抓美女~
当爬虫遭遇验证码,怎么办
知易行难
用词云图解读“于欢案”
【视频】于欢案之网民的意见(1)?
【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”
【视频】快来get新技能--抓包+cookie,爬微博不再是梦
【视频教程】用python批量抓取简书用户信息
爬豆瓣电影名的小案例(附视频操作)
爬豆瓣电影名的小案例2(附视频操作)
用Python抓取百度地图里的店名,地址和联系方式
文本分析
python居然有情感??真的吗??
数说中南大学研究生感情状况及择偶观
用gensim库做文本相似性分析
基于共现发现人物关系的python实现
用python计算两文档相似度
神奇的python
怜香惜玉,我用python帮助办公室文秘
逆天的量化交易分析库-tushare
开扒皮自己微信的秘密
8行代码实现微信聊天机器人
使用Python登录QQ邮箱发送QQ邮件