有人说,曹雪芹将自身一半的“才华”赋予到林黛玉身上。特别是浪漫凄美的“黛玉之诗”,可以说是曹雪芹的呕心沥血之作,有力的衬托了林黛玉容貌倾城、才情绝世的人物形象,是红楼诗词艺术的高峰。
在《红楼梦》中,林黛玉创作的诗词分为8类:五言律诗、七言律诗、七言绝句、琴曲、七言古风、联诗、酒令、词,一共25首,如下表:
利用计量语言学(Quantitative linguistics)的研究方法,去分析这些诗词,我们可以从一个很特殊的角度,一窥林黛玉人物形象和性格的构成。
什么是“计量语言学”呢?
说简单一点就是利用数理统计的方法研究人类语言:
引自:注1
可能一般读者很少听说【计量语言学】这门学科,其实,这门学科无时无刻不在,我们今天在电子设备上使用汉字进行交流,就得益于【计量语言学】。
比如:利用【计量语言学】制定汉字标准,也即教育部颁布的《通用规范汉字表》,将8105个汉字,分为三个常用等级:
这都是花费了数十年时间,对数十几亿汉语文本语料库进行统计得到的,也就是所谓的“字频(Character frequency )”:即某个汉字在一定语料中使用(出现)的次数,与样本总字数的比率。
假设一篇文章有一万个汉字,汉字“是”是出现了500次,那么,“是”的字频计算公式为:
500÷10000×100%=5%
【计量语言学】这门学科建立的的标志【齐夫定律(Zipf's law)】的发现,也叫做【词频分布定律(law of distribution for word frequencies)】。
1949年,美国哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)通过统计一些自然语言发现:
在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。【注2】
这是什么意思呢?
还是一汉字为例,用最通俗的化来说,还是假设有一篇一万字的汉语文章,假设出现频率最高的汉字排名分别是:
n....
根据“齐夫定律”:一个单词出现的频率与它在频率表里的排名成反比,那么:
也即排名为“n”的汉字,“字频”是排名第一名汉字字频的1\\n。
从香港中文大学统计的《汉字字频表》来看,汉字频率分布基本上是符合齐夫定律的:
图引自:注3
世界上最神秘的书籍——伏尼契手稿(Voynich manuscript),用一种十分怪异的文字写就,这种文字至今没有破译,很多人认为伏尼契手稿中的文字毫无意义,只是伪造用来骗钱的伪书。
但是,最新的研究表明,书中的单词分布符合【齐夫定律】,因此,很有可能书中的文字是记录某一种人类的未知语言。【注4】
伏尼契手稿
当然,以上所例举的都是应用很小的一个方面,其目的是让读者建立一个初步、浅显的认识,
【计量语言学】的应用非常广泛,除了对字、词的频率统计,帮助语言信息的计算机化处理以外,还诸如:字辞书编纂和检索、某一作家语言的修辞手法、语言风格等。
比如:《红楼梦》后四十回的作者研究也一直用到【计量语言学】,但是结论众说纷纭:
比如下面两篇论文认为作者是两个人:
另一篇论文认为作者是一个人:
细讲的话非常复杂,有兴趣的可以自行阅读原文,还可参阅另一篇综述性的论文:
【计量语言学】最简单,也是最喜闻乐见的应用就是“词云图”:
“词云图”的原理很简单,就是对语料库中的词语词频进行排名,出现频率最高的词越靠中间,当然权重也最高。
北京语言大学胡翠婷对23首林黛玉诗词进行词频统计,用 NiucoData 词云统计工具得到“词云图”如下:
图引自:注9
可见,林黛玉诗词中“桃花”是出现频率最高的词汇,也就是说“桃花”一词在黛玉诗词中具有最重要的意义。
“黛玉葬花”葬的就是桃花,她不忍心桃花随流水流到污秽之处,遂以花冢而葬。“桃花”的寓意美丽的东西不能长久,暗示这黛玉悲惨的人生结局。
对林黛玉诗词中的词性统计数据如下图:
【黛玉诗词的词性分布图】,图引自注9
对黛玉诗词中的形容词进行“情感极性”的量化: 0 代表中性,1 代表正向,-1 代表负向,得到的可视图如下:
引自注9
黛玉诗词中的“消极悲观”的形容词占到56%,如:“难、瘦、憔悴、寂寥、凄凉、渺茫”等等:
引自注9
黛玉诗词中的副词分布图,也可以看出她消极、悲观的一面,副词中出现频率最高的是表示否定的“不”,否定副词“莫、非”的 频次也较高。
引自注9
黛玉诗词代词中出现频率最高的词是表示疑问的“谁、何、何处”等,反映出黛玉对未来的迷茫之与无奈之感。
引自注9
黛玉诗词中动词词云图权重最高的一个词,也是一个大大的“否定”——摇头:
引自注9
综上所述,对黛玉诗词计量研究表明,表示情感上的消极、悲观、否定、无奈、迷茫的词汇占了多数,这也印证了林黛玉多愁善感、忧郁敏感,孤傲却透着无奈的性格。
-----------------------