诗歌在中国是一个极为重要且历史悠久的文学体裁。纵横千年的时间跨度、数量巨大的诗人群体、卷帙浩繁的诗歌文本都使得在传统的文本阅读方式下,中国诗歌的宏观把握变得极其不易。因此,随着计算机算力与计算模型的发展,越来越多的研究者将目光聚焦到了使用计算机对诗歌进行文本分析的研究领域,已有研究者对中国古诗进行了统计建模与宏观分析$^{[1]}$,但所用文本语料多为《全唐诗》《全宋词》等,以《诗经》为语料的文本分析研究,未之有也。因此需要有人在这个方面进行一些探索,本文便是一次尝试, 试图从另一个视角出发,更高效地处理《诗经》文本,并提供文本分析视角下对《诗经》的宏观刻画、描述与阐释。 本文从字频、词频、文本长度、文本方差、情感分析、提取主题词等各个维度,对《诗经》进行了以下文本分析:
首先从单字的角度,对诗经进行了字数、字频、各句长度方差等统计。
经过效果对比,选用北京大学的分词工具Pkuseg,对《诗经》进行分词处理。
在分词基础上统计词频且生成词云。
通过文本长度,文本方差来寻找风雅颂三部分之间的差异。
通过对《诗经》中篇目的情感分析,绘制出风雅颂各部分的情感变化曲线。
提取出文本中的主题词,并以此为基础构建出每篇作品的文本向量。
选定文本长度,文本方差,文本向量作为作品的三个特征,共同组成一个样本来表达一篇作品。
抽取样本,通过计算距离的方式对《诗经》中风雅颂三部分进行聚类,绘制出表达聚类效果的轮廓系数曲线。
以束皙的六首《补亡诗》与陶渊明的四首《时运》为例,计算二者作品与《诗经》的相似程度。