词频分析想必大家不陌生,它是文本分析重要的一个分支,前天的大会结束后,我做了一个词频分析并发在微博上了,就是简单的柱状图的展示,没想到很多人都喜欢,都在问如何做词频分析。
我做过很多词频分析的产品,之前我还做过一个特火的词频分析,微博阅读量高达609万。当然也是针对热点事件的,热点事件的文本分析速度必须快,必须要有好的工具才行。
词频分析的工具很多,有在线的,也有线下的,方便的很,不神秘。只要有文本可以秒级出分析结果。厉害了吧,如果你也会了,是不是可以上天?推荐几款我常使用的工具。
1、在线词频分析
在线词频分析推荐图悦,网址:http://www.picdata.cn/。只要把文本复制到左边方框内,再点击分析出图,就可以生成右边这种词频地图。目前有标准模式、微信模式和地图模式,图形略单一,不过貌似也可以定制图形。
需要注意一下,图悦的地图格式右下角少点东西,所以发布的时候一定要注意,否则后果自负(我一般是手动加上去)。
图悦的另一个好处是可以把分析好的词频数据下载到excel,支持150个词的下载数据。下载后再生成柱状图或条形图就容易了。本文第一张图就是这样生成的。
微信里面也有一个叫“字云”的小程序,偶尔装逼的时候也可以用它来做做词频分析,生成一些很有意思的词频图形。
2、线下excel解决方案
我的朋友方骥(微博名@excel大全)利用excel设计了一个线下的词频分析工具(当然要联网)。这个工具的好处可以按不同的词性进行分析(下图),可以全选也可以部分选。
福利来了,在本公众号后台回复“cp”就可以获得这个文件的下载地址。这个工具需要启用excel的宏,不会用宏没关系,文件中有超级详细的使用说明,包你们满意。
前几天网上很火的那个清华附小6年级学生用“大数据”分析苏轼的“论文”其实就是使用了词频分析技术,很早之前也有一位闲得无聊的理科生分析了唐诗宋词的词频,然后找出了其中的高频词。
这些词,你是不是很眼熟?是不是你也可以一秒变诗人了?例如:东风(2)何处(3)在人间(4),亦或:风吹(32)芙蓉(59)几度(93)空,多少(16)佳人(68)无情(80)梦。还可以场景化,例如手机号(1357924680-):【空】(1),何处(3)憔悴(57)中,归来(9)怨东风(2),匆匆(46)而立,世事无情(80)懵懂。
厉害了我的哥,女朋友再也不用担心我不浪漫了!!!