R文本挖掘初探之“天下风云出我辈, 一入江湖岁月

浏览: 1712

宅了三天,动手操作文本挖掘。现将结果呈现在此,顺便总结下这几天的学习,看起来还挺有意思(bu kao pu)的。

完整的计划应该包含五个部分:

人物重要程度图:提取人物出现频数,绘制词云图

主要人物出场次序图:按照出场顺序,绘制主要人物出场的顺序和活跃的阶段。

人物关系图:提取人物关系(节点和边),绘制关系图谱。

故事展开地图:提取文中地理位置出现的先后,绘制地图,并标明先后变化轨迹。

武功招式图:武功招式出现的频数,绘制词云图。

目前只完成了前三个人物,本文只展示这三个作品,其他的后续贴文章,实现过程也会在后面记录下来。

1. 人物重要程度词云图

名字的大小表征该角色的出镜率的高低。采用一把剑的来组织词云,还是蛮符合笑傲江湖主题的。

Clipboard Image.png

主要人物热度词云图

2. 主要人物出场次序图

不解释,直接上图

Clipboard Image.png

令狐冲和林平之出场情况比较

图中可以看出这两个人物基本贯穿整部小说。。。相比于冲哥极高且分布较为均匀的样子,林平之倒是像是故事的各种线索:故事从他开始展开,关键环节他总是会出现,一点都不落下。唉,悲剧的人生就是给别人精彩的人生当坐标,串故事。

Clipboard Image.png

令狐冲、林平之、田伯光、岳不群、岳灵珊出场情况

这张图将令狐冲、林平之、田伯光、岳不群、岳灵珊这5个人物出场情况展示在一张图上,不得不说小师妹跟林师弟真的是天生一对。。。出现也是成双成对形影不离。田伯光这个人物看原著的时候知道他出镜率蛮高,可是没想到有结果这么高。。。说实话还是蛮喜欢这个采花大盗的。

Clipboard Image.png

主要人物出场分面图

前两张图在人物很少的情况下能够清晰的展现一些人物的出场情况,但是想要把所有主要人物的出场情况都表现出来如果都化成一张图(下一张)颜色的交织会使得观察的不够明显,于是采用分面图来表示Top21(一共有130+号人物出场,打酱油的路人甲除外)的人物上镜情况。可以既关注某个角色,又可以相互对比,其乐融融啊。。。基本是按热度排行,我们的圣姑除外。为了对比把所有Top21都画在一个图上的也传上来:

Clipboard Image.png

主要人物复合时间线图

3.人物关系图

人物关系图是最”复杂“”和”纠结”的了。。。

Clipboard Image.png

笑傲江湖人物关系图

Clipboard Image.png

笑傲江湖人物关系图

Clipboard Image.png

笑傲江湖人物关系图

Clipboard Image.png

笑傲江湖人物关系图

QQ图片20170106140708.png

推荐 5
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册