Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

浏览: 1756

小伙伴肯定知道霍金的故事肯定很励志,他是智商肯定不是常人能及的,因为他的引领,不断的拓宽了人类对宇宙的认识。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

作为一名普通吃瓜群众,《时间简史》、《果壳中的宇宙》这些高大上的天书能知道名字就已经十分不错了,如果想看的话,要做好听凉凉的心里准备。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

不过别慌,看书看不懂,看电影总能更好接受一些吧,关于霍金的人物传记电影名叫《The Theory of Everything》,翻译过来是:《万物理论》,真是高大上哇~~这部电影首映距今有3年多了,那么作为程序猿,我们应该如何来缅怀这位伟大的科学家呢?言归正传,小编利用Python网络爬虫来爬取《万物理论》的影评,缅怀一些逝去的巨星。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

这个流程很简单,首先利用Python网络爬虫在豆瓣网上爬取电影短评,之后利用Python强大的分词库—jieba,对抓取到的电影短评做一个分词处理,再对处理后的词语进行相应的词频统计。最后,通过词云可视化对大家对该片的评论做一个展示,并分析其中的关键信息,具体流程如下。

第一步:抓取《万物理论》页面的短评信息

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

抓取《万物理论》页面的短评信息

第二步:使用Jieba分词对采集到的文本进行分词处理

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

Jieba分词处理

第三步:使用WordArt对分词文本进行词频统计并进行词云可视化展示

利用wordArt(https://tagul.com/)这款强大的免费在线生成词云的工具,将生成的关键词输入到词云工具中去。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

选择对比度高的照片的作为词云制作背景图(背景图设为霍金),之后在线自动生成词云图,其效果图如下:

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

换个词云背景,其效果图如下所示:

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

通过词云可视化,不难从词云中看出,字体较大的内容主要涉及:霍金、电影、雀斑、爱情、时间、伟大、传记等,这些词是电影短评中出现的高频词汇,可以推断出大家霍金脸上的雀斑以及他和简·王尔德(他的妻子)之间的爱情印象比较深刻。此外,我们也可以感受到读者们基本上都认可霍金这一位伟大又杰出的物理学家。

最后介绍一下斯蒂芬·威廉·霍金(Stephen William Hawking)——1942年1月8日出生于英国牛津,英国剑桥大学著名物理学家,现代最伟大的物理学家之一、20世纪享有国际盛誉的伟人之一。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

我们会永远怀念他 ~~

推荐 0
本文由 dcpeng 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册