(一)
有人说,曹雪芹将自身一半的“才华”赋予到林黛玉身上。特别是浪漫凄美的“黛玉之诗”,可以说是曹雪芹的呕心沥血之作,有力的衬托了林黛玉容貌倾城、才情绝世的人物形象,是红楼诗词艺术的高峰。
在《红楼梦》中,林黛玉创作的诗词分为8类:五言律诗、七言律诗、七言绝句、琴曲、七言古风、联诗、酒令、词,一共25首,如下表:
利用计量语言学(Quantitative linguistics)的研究方法,去分析这些诗词,我们可以从一个很特殊的角度,一窥林黛玉人物形象和性格的构成。
(二)
什么是“计量语言学”呢?
说简单一点就是利用数理统计的方法研究人类语言:
引自:注1
可能一般读者很少听说【计量语言学】这门学科,其实,这门学科无时无刻不在,我们今天在电子设备上使用汉字进行交流,就得益于【计量语言学】。
比如:利用【计量语言学】制定汉字标准,也即教育部颁布的《通用规范汉字表》,将8105个汉字,分为三个常用等级:
- 一级:3500个
- 二级:3000个
- 三级:1605个
这都是花费了数十年时间,对数十几亿汉语文本语料库进行统计得到的,也就是所谓的“字频(Character frequency )”:即某个汉字在一定语料中使用(出现)的次数,与样本总字数的比率。
假设一篇文章有一万个汉字,汉字“是”是出现了500次,那么,“是”的字频计算公式为:
500÷10000×100%=5%
【计量语言学】这门学科建立的的标志【齐夫定律(Zipf's law)】的发现,也叫做【词频分布定律(law of distribution for word frequencies)】。
1949年,美国哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)通过统计一些自然语言发现:
在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。【注2】
这是什么意思呢?
还是一汉字为例,用最通俗的化来说,还是假设有一篇一万字的汉语文章,假设出现频率最高的汉字排名分别是:
- 的
- 是
- 也
- 我
- ..
- ..
n....
根据“齐夫定律”:一个单词出现的频率与它在频率表里的排名成反比,那么:
- 排名第一“的”字的字频,就是排名第二的“是”字字频的2倍,
- 排名第二的“是”字的字频,就是排名第四的“我”字字频的2倍。
- 排名第三的“也”字的字频,就是排名第一“的”字字频的1/3。
- 排名第四的“我”字的字频,则是排名第一“的”字字频的1/4
也即排名为“n”的汉字,“字频”是排名第一名汉字字频的1\\n。
从香港中文大学统计的《汉字字频表》来看,汉字频率分布基本上是符合齐夫定律的:
图引自:注3
世界上最神秘的书籍——伏尼契手稿(Voynich manuscript),用一种十分怪异的文字写就,这种文字至今没有破译,很多人认为伏尼契手稿中的文字毫无意义,只是伪造用来骗钱的伪书。
但是,最新的研究表明,书中的单词分布符合【齐夫定律】,因此,很有可能书中的文字是记录某一种人类的未知语言。【注4】
伏尼契手稿
当然,以上所例举的都是应用很小的一个方面,其目的是让读者建立一个初步、浅显的认识,
【计量语言学】的应用非常广泛,除了对字、词的频率统计,帮助语言信息的计算机化处理以外,还诸如:字辞书编纂和检索、某一作家语言的修辞手法、语言风格等。
比如:《红楼梦》后四十回的作者研究也一直用到【计量语言学】,但是结论众说纷纭:
比如下面两篇论文认为作者是两个人:
- 《红楼梦前八十回和后四十回的词频对比研究》【注5】
- 《运用基于统计学建立的数学模型解决《红楼梦》作者之谜》【注6】
另一篇论文认为作者是一个人:
- 《基于计算机的词频统计研究——考证《红楼梦》作者是否唯一》【注7】
细讲的话非常复杂,有兴趣的可以自行阅读原文,还可参阅另一篇综述性的论文:
- 《红楼梦》研究中的统计方法综述【注8】
(三)
【计量语言学】最简单,也是最喜闻乐见的应用就是“词云图”:
“词云图”的原理很简单,就是对语料库中的词语词频进行排名,出现频率最高的词越靠中间,当然权重也最高。
北京语言大学胡翠婷对23首林黛玉诗词进行词频统计,用 NiucoData 词云统计工具得到“词云图”如下:
图引自:注9
可见,林黛玉诗词中“桃花”是出现频率最高的词汇,也就是说“桃花”一词在黛玉诗词中具有最重要的意义。
“黛玉葬花”葬的就是桃花,她不忍心桃花随流水流到污秽之处,遂以花冢而葬。“桃花”的寓意美丽的东西不能长久,暗示这黛玉悲惨的人生结局。
对林黛玉诗词中的词性统计数据如下图:
- 名词(n)——32%
- 动词(v) ——31%
- 形容词(a)——8%
- 副词(d—)——7%
- 代词(r)、介词 (p)、拟声词(o)——共22%
【黛玉诗词的词性分布图】,图引自注9
对黛玉诗词中的形容词进行“情感极性”的量化: 0 代表中性,1 代表正向,-1 代表负向,得到的可视图如下:
引自注9
黛玉诗词中的“消极悲观”的形容词占到56%,如:“难、瘦、憔悴、寂寥、凄凉、渺茫”等等:
引自注9
黛玉诗词中的副词分布图,也可以看出她消极、悲观的一面,副词中出现频率最高的是表示否定的“不”,否定副词“莫、非”的 频次也较高。
引自注9
黛玉诗词代词中出现频率最高的词是表示疑问的“谁、何、何处”等,反映出黛玉对未来的迷茫之与无奈之感。
引自注9
黛玉诗词中动词词云图权重最高的一个词,也是一个大大的“否定”——摇头:
引自注9
综上所述,对黛玉诗词计量研究表明,表示情感上的消极、悲观、否定、无奈、迷茫的词汇占了多数,这也印证了林黛玉多愁善感、忧郁敏感,孤傲却透着无奈的性格。
-----------------------
参考文献
- 刘海涛, & 黄伟. (2012). 计量语言学的现状、理论与方法. 浙江大学学报(人文社会科学版), 42(2), 178-192.
- MIT自然语言处理,齐夫定律,form:http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part
- 香港中文大学,现代汉语字频统计,form:http://humanum.arts.cuhk.edu.hk/Lexis/chifreq/
- 维基百科词条,伏尼契手稿(Voynich manuscript)from:https://zh.wikipedia.org/wiki/%E4%BC%8F%E5%B0%BC%E5%A5%91%E6%89%8B%E7%A8%BF
- 包辰瑶. (2013). 《红楼梦》前八十回和后四十回词频的对比研究. 湖北科技学院学报(09), 67-68+80.
- 陈城钰, 于欣雨, & 苏世杰. (2019). 运用基于统计学建立的数学模型解决《红楼梦》作者之谜. 数学学习与研究(07), 17-18.
- 李国强, & 李瑞芳. (2006). 基于计算机的词频统计研究——考证《红楼梦》作者是否唯一. 沈阳化工大学学报, 20(4), 305-307.
- 施政. (2019). 《红楼梦》研究中的统计方法综述. 吉林省教育学院学报, v.35;No.457(01), 151-156.
- 胡翠婷. (2019). 基于词频计量统计的林黛玉性格分析. 现代语文, 680(02), 88-94.