數理話紅樓:紅消香斷有誰憐?——從「詞雲圖」看林黛玉

2019-11-08     小漢字見大歷史

(一)

有人說,曹雪芹將自身一半的「才華」賦予到林黛玉身上。特別是浪漫悽美的「黛玉之詩」,可以說是曹雪芹的嘔心瀝血之作,有力的襯託了林黛玉容貌傾城、才情絕世的人物形象,是紅樓詩詞藝術的高峰。

在《紅樓夢》中,林黛玉創作的詩詞分為8類:五言律詩、七言律詩、七言絕句、琴曲、七言古風、聯詩、酒令、詞,一共25首,如下表:

利用計量語言學(Quantitative linguistics)的研究方法,去分析這些詩詞,我們可以從一個很特殊的角度,一窺林黛玉人物形象和性格的構成。


(二)

什麼是「計量語言學」呢?

說簡單一點就是利用數理統計的方法研究人類語言:

引自:注1

可能一般讀者很少聽說【計量語言學】這門學科,其實,這門學科無時無刻不在,我們今天在電子設備上使用漢字進行交流,就得益於【計量語言學】。

比如:利用【計量語言學】制定漢字標準,也即教育部頒布的《通用規範漢字表》,將8105個漢字,分為三個常用等級:

  • 一級:3500個
  • 二級:3000個
  • 三級:1605個

這都是花費了數十年時間,對數十幾億漢語文本語料庫進行統計得到的,也就是所謂的「字頻(Character frequency )」:即某個漢字在一定語料中使用(出現)的次數,與樣本總字數的比率。

假設一篇文章有一萬個漢字,漢字「是」是出現了500次,那麼,「是」的字頻計算公式為:

500÷10000×100%=5%

【計量語言學】這門學科建立的的標誌【齊夫定律(Zipf's law)】的發現,也叫做【詞頻分布定律(law of distribution for word frequencies)】。

1949年,美國哈佛大學的語言學家喬治·金斯利·齊夫(George Kingsley Zipf)通過統計一些自然語言發現:

在自然語言的語料庫里,一個單詞出現的頻率與它在頻率表里的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。【注2】

這是什麼意思呢?

還是一漢字為例,用最通俗的化來說,還是假設有一篇一萬字的漢語文章,假設出現頻率最高的漢字排名分別是:

  1. ..
  2. ..

n....

根據「齊夫定律」:一個單詞出現的頻率與它在頻率表里的排名成反比,那麼:

  • 排名第一「的」字的字頻,就是排名第二的「是」字字頻的2倍,
  • 排名第二的「是」字的字頻,就是排名第四的「我」字字頻的2倍。
  • 排名第三的「也」字的字頻,就是排名第一「的」字字頻的1/3。
  • 排名第四的「我」字的字頻,則是排名第一「的」字字頻的1/4

也即排名為「n」的漢字,「字頻」是排名第一名漢字字頻的1\\n。

從香港中文大學統計的《漢字字頻表》來看,漢字頻率分布基本上是符合齊夫定律的:

圖引自:注3

世界上最神秘的書籍——伏尼契手稿(Voynich manuscript),用一種十分怪異的文字寫就,這種文字至今沒有破譯,很多人認為伏尼契手稿中的文字毫無意義,只是偽造用來騙錢的偽書。

但是,最新的研究表明,書中的單詞分布符合【齊夫定律】,因此,很有可能書中的文字是記錄某一種人類的未知語言。【注4】

伏尼契手稿

當然,以上所例舉的都是應用很小的一個方面,其目的是讓讀者建立一個初步、淺顯的認識,

【計量語言學】的應用非常廣泛,除了對字、詞的頻率統計,幫助語言信息的計算機化處理以外,還諸如:字辭書編纂和檢索、某一作家語言的修辭手法、語言風格等。

比如:《紅樓夢》後四十回的作者研究也一直用到【計量語言學】,但是結論眾說紛紜:

比如下面兩篇論文認為作者是兩個人:

  • 《紅樓夢前八十回和後四十回的詞頻對比研究》【注5】
  • 《運用基於統計學建立的數學模型解決《紅樓夢》作者之謎》【注6】

另一篇論文認為作者是一個人:

  • 《基於計算機的詞頻統計研究——考證《紅樓夢》作者是否唯一》【注7】

細講的話非常複雜,有興趣的可以自行閱讀原文,還可參閱另一篇綜述性的論文:

  • 《紅樓夢》研究中的統計方法綜述【注8】

(三)

【計量語言學】最簡單,也是最喜聞樂見的應用就是「詞雲圖」:

「詞雲圖」的原理很簡單,就是對語料庫中的詞語詞頻進行排名,出現頻率最高的詞越靠中間,當然權重也最高。

北京語言大學胡翠婷對23首林黛玉詩詞進行詞頻統計,用 NiucoData 詞雲統計工具得到「詞雲圖」如下:

圖引自:注9

可見,林黛玉詩詞中「桃花」是出現頻率最高的詞彙,也就是說「桃花」一詞在黛玉詩詞中具有最重要的意義。

「黛玉葬花」葬的就是桃花,她不忍心桃花隨流水流到污穢之處,遂以花冢而葬。「桃花」的寓意美麗的東西不能長久,暗示這黛玉悲慘的人生結局。

對林黛玉詩詞中的詞性統計數據如下圖:

  • 名詞(n)——32%
  • 動詞(v) ——31%
  • 形容詞(a)——8%
  • 副詞(d—)——7%
  • 代詞(r)、介詞 (p)、擬聲詞(o)——共22%

【黛玉詩詞的詞性分布圖】,圖引自注9

對黛玉詩詞中的形容詞進行「情感極性」的量化: 0 代表中性,1 代表正向,-1 代表負向,得到的可視圖如下:

引自注9

黛玉詩詞中的「消極悲觀」的形容詞占到56%,如:「難、瘦、憔悴、寂寥、淒涼、渺茫」等等:

引自注9

黛玉詩詞中的副詞分布圖,也可以看出她消極、悲觀的一面,副詞中出現頻率最高的是表示否定的「不」,否定副詞「莫、非」的 頻次也較高。

引自注9

黛玉詩詞代詞中出現頻率最高的詞是表示疑問的「誰、何、何處」等,反映出黛玉對未來的迷茫之與無奈之感。

引自注9

黛玉詩詞中動詞詞雲圖權重最高的一個詞,也是一個大大的「否定」——搖頭:

引自注9

綜上所述,對黛玉詩詞計量研究表明,表示情感上的消極、悲觀、否定、無奈、迷茫的詞彙占了多數,這也印證了林黛玉多愁善感、憂鬱敏感,孤傲卻透著無奈的性格。

-----------------------

參考文獻

  1. 劉海濤, & 黃偉. (2012). 計量語言學的現狀、理論與方法. 浙江大學學報(人文社會科學版), 42(2), 178-192.
  2. MIT自然語言處理,齊夫定律,form:http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part
  3. 香港中文大學,現代漢語字頻統計,form:http://humanum.arts.cuhk.edu.hk/Lexis/chifreq/
  4. 維基百科詞條,伏尼契手稿(Voynich manuscript)from:https://zh.wikipedia.org/wiki/%E4%BC%8F%E5%B0%BC%E5%A5%91%E6%89%8B%E7%A8%BF
  5. 包辰瑤. (2013). 《紅樓夢》前八十回和後四十回詞頻的對比研究. 湖北科技學院學報(09), 67-68+80.
  6. 陳城鈺, 于欣雨, & 蘇世傑. (2019). 運用基於統計學建立的數學模型解決《紅樓夢》作者之謎. 數學學習與研究(07), 17-18.
  7. 李國強, & 李瑞芳. (2006). 基於計算機的詞頻統計研究——考證《紅樓夢》作者是否唯一. 瀋陽化工大學學報, 20(4), 305-307.
  8. 施政. (2019). 《紅樓夢》研究中的統計方法綜述. 吉林省教育學院學報, v.35;No.457(01), 151-156.
  9. 胡翠婷. (2019). 基於詞頻計量統計的林黛玉性格分析. 現代語文, 680(02), 88-94.

文章來源: https://twgreatdaily.com/zh-cn/lsKBe24BMH2_cNUgqHkn.html