利用Python统计词频

浏览: 3021

统计词频属于比较简单的问题,这里主要是通过文件和字典的相关python知识来实现。后面有代码下载链接,立个flag:下期我一定要总结好正则表达式!

0.gif

 “ 统计词频” 问题
     统计文章其中多次出现的词语
     概要分析文章内容
     搜索引擎

统计词频IPO描述

     输入:从文件中读取一篇英文文章
     处理:统计文件中每个单词的出现频率
     输出:输出最常出现10个单词及次数图像

统计一行词频processLine()

image.png

符号替换repleacePunctuations()

image.png

统计词频主程序
     输入英文文本名称

image.png

    建立一个空字典

image.png

     对每一行进行统计

image.png

     词频排序

image.png

     交换列表数据项排序

image.png

     绘制柱状图
         初始化窗口、 画笔
         调用drawGraph()进行绘制

image.png

     定义全局变量

image.png

     drawLine()绘制线段
     drawText()输出文字

image.png

image.png

     drawRectangel()绘制矩形
     drawBar()绘制多个柱体

image.png

image.png

    drawGraph()绘制统计图

image.png

程序运行结果

image.png

Python全文代码下载:

链接:http://pan.baidu.com/s/1boRxV35 密码:gsg9

这里介绍的是对英文单词的词频统计,如果需要对中文进行词频统计,需要先进行中文分词(jieba库),具体可以参考上一篇文章:如何利用Python生成词云图

0 (1).gif

推荐 0
本文由 吴小鹏 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册