运用R分析全唐诗与全宋词

浏览: 2532

宋词词云分析步骤主要由三部分构成:资料收集、词频统计、对比分析

Clipboard Image.png

从网上共搜集唐诗4.8万首,宋词1400首;

进过预处理过程之后,对其进行分词与词频统计,各取其词频数前50的词,罗列如下:

Clipboard Image.png

再直观点,来个当今流行的词云图展示一下唐宋年代各自的流行词汇:

Clipboard Image.png

唐诗词云

Clipboard Image.png

宋词词云

好了,数据准备工作算是完成了,接下来开始分析工作:

诗词分析--诗人个人情感的显著特征1:

  古代文人多”相思”

  “相思”、“思家”等词在情感类词语中位居首位:在 4.8万首唐诗中共出现2100余次;在1600首宋词中,更是出现了1200余次。

看来唐诗宋词是英雄难过“情关”的真实写照。

诗词分析--诗人个人情感的显著特征2:

唐诗:醉卧沙场君莫笑  宋词:做鬼也“风流”

    唐诗中,“将军”、“征战”、“战马”等词出现1200余次,爱国报国的典型代表。宋词中,战争相关词鲜有出现“风流”、“多情”、“鸳鸯”取而代之。

    在这方面,唐朝诗人和宋朝诗人存在着巨大的差异,差异的来源可能是:宋朝历代皇帝崇尚文人治国、武将的地位相对来说消弱很多,这个时期文人的地位升高、生活相对来说会过的更安逸;而在唐朝,习武参军、沙场成将对普通人来说仍然是通往仕途的一个不错选择。

诗词分析 -----地理位置差异:

   地理喜好各不同,唐代诗人偏爱长安:“长安”是地理位置中出现频率最高的地理词,共824次。宋代词人则独爱江南:“江南”在1600首宋词中累积出现760次。

   从长安到江南,是文人的迁徙,也是中国政治中心的南移。

那么问题来了,诗词歌赋哪家强?

   

我收集整理了从先秦时期(公元前250左右)到晚清时期(公元1900年左右)的各朝代的诗词歌赋(注:这里不包含史料、小说等素材),具体数量可能和真实情况有所出入,比如朝代越久远,遗留下来的诗词可能越少,同时收集不一定全面准确,但大致应该可以反应一个朝代的数量。归一化后拟合成曲线图:

Clipboard Image.png

可以看到,诗词创作数量在各个时期差异巨大,并受到国家经济、内外部的政治影响。具体来说,个人认为存在以下几方面因素:

(1)在汉朝、宋朝由于北方游牧民族的南下入侵,对文人创作有一定的制约左右。但宋朝大兴科举制度,同时不轻杀读书人的政策鼓励了文人的发展。

(2)从先秦至隋朝,匈奴与汉民族持续进行战争。在公元4世纪左右匈奴人迁入中原,改汉族姓氏,并逐渐汉化。

(3)而唐朝稳定的社会环境、较少的战争,提供了文人创作的土壤。

(4)唐宋时期推崇文人治国,大兴科举制度。

(5)文字记录、传播方式的影响,在中国历史早期,文字主要记录靠竹片、布帛完成,记录昂贵且传播不易,因此,因此文人创作主要借助短小的诗词完成,在后期,印刷造纸发明后,记录和传播变得廉价方便,一部分文人创作开始由诗词转向小说,这一点在明清时期更为显著。以至于到了现在移动互联网发展成熟后,大部分人“创作”开始转变为发微博、写段子了。

综合以上,诗词歌赋哪家强,历朝历代看宋唐。

Clipboard Image.png

推荐 1
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册