有人說,曹雪芹將自身一半的「才華」賦予到林黛玉身上。特別是浪漫悽美的「黛玉之詩」,可以說是曹雪芹的嘔心瀝血之作,有力的襯託了林黛玉容貌傾城、才情絕世的人物形象,是紅樓詩詞藝術的高峰。
在《紅樓夢》中,林黛玉創作的詩詞分為8類:五言律詩、七言律詩、七言絕句、琴曲、七言古風、聯詩、酒令、詞,一共25首,如下表:
利用計量語言學(Quantitative linguistics)的研究方法,去分析這些詩詞,我們可以從一個很特殊的角度,一窺林黛玉人物形象和性格的構成。
什麼是「計量語言學」呢?
說簡單一點就是利用數理統計的方法研究人類語言:
引自:注1
可能一般讀者很少聽說【計量語言學】這門學科,其實,這門學科無時無刻不在,我們今天在電子設備上使用漢字進行交流,就得益於【計量語言學】。
比如:利用【計量語言學】制定漢字標準,也即教育部頒布的《通用規範漢字表》,將8105個漢字,分為三個常用等級:
這都是花費了數十年時間,對數十幾億漢語文本語料庫進行統計得到的,也就是所謂的「字頻(Character frequency )」:即某個漢字在一定語料中使用(出現)的次數,與樣本總字數的比率。
假設一篇文章有一萬個漢字,漢字「是」是出現了500次,那麼,「是」的字頻計算公式為:
500÷10000×100%=5%
【計量語言學】這門學科建立的的標誌【齊夫定律(Zipf's law)】的發現,也叫做【詞頻分布定律(law of distribution for word frequencies)】。
1949年,美國哈佛大學的語言學家喬治·金斯利·齊夫(George Kingsley Zipf)通過統計一些自然語言發現:
在自然語言的語料庫里,一個單詞出現的頻率與它在頻率表里的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。【注2】
這是什麼意思呢?
還是一漢字為例,用最通俗的化來說,還是假設有一篇一萬字的漢語文章,假設出現頻率最高的漢字排名分別是:
n....
根據「齊夫定律」:一個單詞出現的頻率與它在頻率表里的排名成反比,那麼:
也即排名為「n」的漢字,「字頻」是排名第一名漢字字頻的1\\n。
從香港中文大學統計的《漢字字頻表》來看,漢字頻率分布基本上是符合齊夫定律的:
圖引自:注3
世界上最神秘的書籍——伏尼契手稿(Voynich manuscript),用一種十分怪異的文字寫就,這種文字至今沒有破譯,很多人認為伏尼契手稿中的文字毫無意義,只是偽造用來騙錢的偽書。
但是,最新的研究表明,書中的單詞分布符合【齊夫定律】,因此,很有可能書中的文字是記錄某一種人類的未知語言。【注4】
伏尼契手稿
當然,以上所例舉的都是應用很小的一個方面,其目的是讓讀者建立一個初步、淺顯的認識,
【計量語言學】的應用非常廣泛,除了對字、詞的頻率統計,幫助語言信息的計算機化處理以外,還諸如:字辭書編纂和檢索、某一作家語言的修辭手法、語言風格等。
比如:《紅樓夢》後四十回的作者研究也一直用到【計量語言學】,但是結論眾說紛紜:
比如下面兩篇論文認為作者是兩個人:
另一篇論文認為作者是一個人:
細講的話非常複雜,有興趣的可以自行閱讀原文,還可參閱另一篇綜述性的論文:
【計量語言學】最簡單,也是最喜聞樂見的應用就是「詞雲圖」:
「詞雲圖」的原理很簡單,就是對語料庫中的詞語詞頻進行排名,出現頻率最高的詞越靠中間,當然權重也最高。
北京語言大學胡翠婷對23首林黛玉詩詞進行詞頻統計,用 NiucoData 詞雲統計工具得到「詞雲圖」如下:
圖引自:注9
可見,林黛玉詩詞中「桃花」是出現頻率最高的詞彙,也就是說「桃花」一詞在黛玉詩詞中具有最重要的意義。
「黛玉葬花」葬的就是桃花,她不忍心桃花隨流水流到污穢之處,遂以花冢而葬。「桃花」的寓意美麗的東西不能長久,暗示這黛玉悲慘的人生結局。
對林黛玉詩詞中的詞性統計數據如下圖:
【黛玉詩詞的詞性分布圖】,圖引自注9
對黛玉詩詞中的形容詞進行「情感極性」的量化: 0 代表中性,1 代表正向,-1 代表負向,得到的可視圖如下:
引自注9
黛玉詩詞中的「消極悲觀」的形容詞占到56%,如:「難、瘦、憔悴、寂寥、淒涼、渺茫」等等:
引自注9
黛玉詩詞中的副詞分布圖,也可以看出她消極、悲觀的一面,副詞中出現頻率最高的是表示否定的「不」,否定副詞「莫、非」的 頻次也較高。
引自注9
黛玉詩詞代詞中出現頻率最高的詞是表示疑問的「誰、何、何處」等,反映出黛玉對未來的迷茫之與無奈之感。
引自注9
黛玉詩詞中動詞詞雲圖權重最高的一個詞,也是一個大大的「否定」——搖頭:
引自注9
綜上所述,對黛玉詩詞計量研究表明,表示情感上的消極、悲觀、否定、無奈、迷茫的詞彙占了多數,這也印證了林黛玉多愁善感、憂鬱敏感,孤傲卻透著無奈的性格。
-----------------------