统计词频属于比较简单的问题,这里主要是通过文件和字典的相关python知识来实现。后面有代码下载链接,立个flag:下期我一定要总结好正则表达式!
“ 统计词频” 问题
统计文章其中多次出现的词语
概要分析文章内容
搜索引擎
统计词频IPO描述
输入:从文件中读取一篇英文文章
处理:统计文件中每个单词的出现频率
输出:输出最常出现10个单词及次数图像
统计一行词频processLine()
符号替换repleacePunctuations()
统计词频主程序
输入英文文本名称
建立一个空字典
对每一行进行统计
词频排序
交换列表数据项排序
绘制柱状图
初始化窗口、 画笔
调用drawGraph()进行绘制
定义全局变量
drawLine()绘制线段
drawText()输出文字
drawRectangel()绘制矩形
drawBar()绘制多个柱体
drawGraph()绘制统计图
程序运行结果
Python全文代码下载:
链接:http://pan.baidu.com/s/1boRxV35 密码:gsg9
这里介绍的是对英文单词的词频统计,如果需要对中文进行词频统计,需要先进行中文分词(jieba库),具体可以参考上一篇文章:如何利用Python生成词云图