《收穫》雜誌復刊四十年來刊載的小說中,第一個十年最突出的高頻詞是「我要」。從第二個十年開始,高頻詞變成「我們」「他們」「自己」。文學創作也逐漸恢復到對日常生活的關注和書寫。 (受訪者供圖/圖)
(本文首發於2019年12月19日《南方周末》)
「計算機不理解任何人類語言,但是它有兩個好處,第一很快,第二很穩定。你讓我看兩千萬字的小說,我看到後面就完全忘記前面。」
「用數字史學的方式去研究歷史,人的價值或者個性怎麼辦?」
戰玉冰用12.5小時「讀」完了749部中國網絡小說,總字數七億兩千九百多萬字。即便按一天一部的速度閱讀,普通人要用兩年多時間才能讀完。戰玉冰只用了半天時間,因為他藉助了一款大數據軟體。
軟體是上海作家走走開發的。2017年,走走辭去《收穫》雜誌社的編輯職務,與鄭翔宇聯合創業,新業務主要是為影視公司評估文學作品。當時,影視公司熱衷於購買網絡文學的作品版權。這些作品動輒幾百萬字,走走讀完一部就需要一周。這也是行業內普遍的煩惱。走走暢想,如果有一個工具,能幫大家迅速看完小說,告訴大家情節是什麼就好了。大數據軟體的雛形誕生了。
軟體研發不久,影視行業遭遇寒冬,走走和鄭翔宇的公司業務短缺,面臨轉型。2019年,《收穫》雜誌復刊四十周年,雜誌社得知走走的軟體,想用這款軟體做一個報告,分析過去四十年《收穫》刊載小說的風格變化。走走的軟體從此邁向人文學科。
報告由復旦大學博士生戰玉冰撰寫。戰玉冰的專業是中國現當代文學,學者們研究時也會用到統計,比如魯迅《狂人日記》里寫到了多少次「狂人」、多少次「吃人」。「通過統計數據來樹立小說的主題,這樣的研究很多。」戰玉冰的博士論文需統計民國時期偵探小說發表情況,他用了半年時間,才統計完這項龐大的數據。《收穫》四十年刊載的小說也是龐大的數據,藉助軟體,戰玉冰只用兩周就拿到了想要的數據。
數字文學只是「數字人文」的眾多分支之一,其他分支包括數字史學、數字哲學、數字藝術等等。據南京大學藝術學院副教授陳靜研究,中國學界2009年才開始廣泛關注數字人文。這一年,武漢大學王曉光教授發表科普文章《「數字人文」的產生、發展與前沿》,在「科學網」上獲得上萬在線點擊。2011年,中國首家數字人文研究中心落戶武漢大學。
「數字人文不僅是量化的方式或者統計的方式,也可以用文本挖掘,用社會網絡信息,或者用可視化的方式呈現你的論文結果。」南京大學歷史系教授王濤告訴南方周末記者,他2014年就接觸到「數字史學」,但在他的世界史研究方向,至今仍然很少有人應用數字方法做研究。
和尿布一起購買最多的商品是啤酒
根據大數據統計,在《收穫》復刊四十年來刊載的小說中,第一個十年最突出的高頻詞是「我要」。戰玉冰分析,「我要」意味著經歷「文革」十年壓抑之後,個人主體意識的覺醒和自我表達慾望的急劇提升,這也與當時以控訴「文革」為主題的「傷痕文學」和書寫自我經歷的「知青文學」的流行相互契合。從第二個十年開始,高頻詞變成了「我們」「他們」「自己」。文學創作逐漸恢復到了對日常生活的關注、描摹和書寫當中。
後來,戰玉冰又用軟體分析了48部茅盾文學獎獲獎作品,排名第一的高頻詞是「心裡」。這個結果符合戰玉冰對「嚴肅文學」的想像和認知,但他找不到二者之間必然的因果關係。「能感覺到,但是我就是說不清楚,最後論文其實也沒有說清楚。」戰玉冰告訴南方周末記者,當時他認為學術研究就應該注重因果關係,因此感到痛苦。
為此,戰玉冰看了很多數字研究的書。他讀到沃爾瑪超市抓取交易數據,發現和尿布一起購買最多的商品是啤酒。超市沒有追問為什麼,只是根據這個結果,把啤酒跟尿布擺在一起。戰玉冰豁然開朗:「相關性本身是有價值的,不一定非要把它變成因果。」
王濤曾用軟體統計德國史研究,數據顯示,學者們最關心的問題是猶太人問題,最關注的時期是二戰時期。這一現象和王濤自己的經驗一致,他在文中寫道:「此前,我們只能憑印象認識到德國史研究的流行度,現在藉助大數據的定量分析,證實了我們的印象。這應該是數字人文最令人著迷的地方。」
高頻詞似乎成為研究者重點關注的對象,王濤反思:「我們把更多注意力投注在大樣本的數據,丟棄了低頻率的內容。對於歷史研究而言,這些被忽視的內容可能同樣具有價值。」
2019年,李洱小說《應物兄》摘得茅盾文學獎。戰玉冰通過軟體分析意外地發現,「心裡」並非這部小說的高頻詞,但其餘四十七部獲獎作品中,「心裡」均是高頻詞。《應物兄》似乎不符合數據呈現的「嚴肅文學」的特徵。
這個特例同樣有研究價值。戰玉冰發現,李洱在小說里用了一種近乎冰冷的客觀敘事態度來取代主觀抒情和心理描寫,李洱常常使用「他問自己」「他聽見自己說」一類的表達方式,把人物的心理活動,變成一種主客體之間的對話。
上述分析與李洱的解讀不謀而合,「熟悉我的人都知道,我是很強調小說的對話性的。小說現代性的最重要的標誌就是對話性,它包含著作者和讀者對話,作者和作品中人物的對話,作品中人物之間的對話,以及讀者和作品中人物的對話」,2019年12月13日,李洱在南方周末舉辦的N—TALK「文學之夜」現場表示,文學的使命就是表達差異,「所有的對話都伴隨著爭議、質疑,而爭議和質疑會打開小說的空間」。
《長安十二時辰》的故事形狀是「倒N型」
2019年,《思南文學選刊》揭曉了國內首個AI文學榜單,評委是大數據軟體「一葉故事薈」(時稱「谷臻小簡」),二十種文學雜誌提供了771部短篇小說供其評選。
2019年1月21日前,莫言的《等待摩西》始終最受「一葉故事薈」青睞,但1月21日新作品送到,它「變心」了。最終陳楸帆的《出神狀態》成為「一葉故事薈」評選出的年度最愛短篇小說。
「一葉故事薈」通過數據分析評判文學作品,包括判斷情節曲線、人物情緒糾結度等。在它的評判下,《出神狀態》的係數為0.998941,略高於《等待摩西》的係數0.998931。但開發這個軟體的走走說:「計算機跟人一樣,沒法評判語言的好壞,你沒法說閻連科的反諷質量低於余華的零度敘事。」
情節曲線也應用於人文學科研究,通過分析文本,軟體描畫出衝突曲線模型,即用一條簡單的線條描繪一個故事的「形狀」,其中包含情緒情感、結構意義、節奏節拍等幾個維度的特徵。走走向南方周末記者展示了六個模型:W型、N型、V型、M型、倒N型、倒V型,前三種是積極型結局,後三種是消極型結局。「當故事情節為積極向上或者衝突較為激烈時曲線呈現上升趨勢;當故事情節為消極向下時曲線呈現下降趨勢。當故事情節出現情況好轉或悲劇來襲時,曲線則呈現出拐點,曲線拐點越多即表明故事中大的情節、轉折越多。」這六種模型是「一葉故事薈」分析了國內近二十年間改編成影視的724部文學作品所得。
《長安十二時辰》的故事形狀是倒N型,《霸王別姬》的故事形狀是M型,「以《白鹿原》的故事形狀(W型)為例,情節較積極,但在故事走到約三分之一的時候,氛圍走入全文最低谷,雖然最後有所回升,但整體基調以悲涼為主。」走走指著電腦上的模型解釋。
走走與王濤在歷史研究領域合作,嘗試描繪口述史的故事形狀。「口述史本身,某種意義上就是一個故事,就是一個人的故事,我們可以從文學文本這個角度來理解口述史這個材料。」
《被改變的人生——南京大屠殺倖存者口述生活史》一書記錄了49位倖存者的回憶,軟體測繪出他們的情緒變化圖譜,初步結果顯示大部分口述者遵循著「甜-苦-甜」的V型情感模式,但走走對南方周末記者說:「應該更注意那些相反情緒,呈倒V型的敘述者,他們的人生可能過得並不好。」
衝突曲線模型的靈感來自美國作家馮內古特。「他曾提出一個問題,我能不能用一條線畫出一個故事來,從開始到結束有一根線。」技術負責人鄭翔宇受此啟發,把故事裡的事件、節奏、情節變化轉換成程序語言,讓計算機處理。「計算機不理解任何人類語言,但是它有兩個好處,第一很快,第二很穩定。你讓我看兩千萬字的小說,我看到後面就完全忘記前面。」
戰玉冰用衝突曲線模型分析了茅盾文學獎獲獎作品,數據呈現的結果是,第一至四屆及第六屆的「明快-沉鬱」作品數據比例普遍在0以上,其他五屆的數據則基本保持在0以下,歷屆獲獎作品似乎呈現逐漸偏向沉鬱的特徵。他分析,這與小說主題從宏大歷史敘事向日常生活敘事轉變相一致。
這些曲線也意外地勾勒出作者的寫作風格,走走向南方周末記者展示莫言《蛙》和余華《現實一種》兩部作品的故事曲線。莫言在描寫王仁美死亡事件時,「一屍兩命」情節的故事曲線情緒值接近0,余華在寫山崗被處以死刑時,數據分析出的曲線情緒值也一樣。「可能那些著名作家,尤其像余華、莫言這種,他寫死亡這種事情,反而不是大悲大喜的,反而特別冷靜。」走走表示「零度敘事」雖不是新鮮話題,但數據分析或許能發揮輔助作用。
海子自殺前的文字情緒比過去都低
接受採訪時,戰玉冰已經使用數據分析完成四篇論文報告。寫到第三篇時,他心頭曾有過一絲負擔:這三篇文章的核心思路都是使用大數據來分析某一批中國當代小說,方法論上的相近性可能會造成論述觀點與行文結構的重複。
戰玉冰使用大數據分析發現,國內被影視改編的文學作品,故事曲線比較普遍的是「W」形和「N」形。戰玉冰在論述時強調:「這一數據分析和研究的意義並非是要為作家提供寫作上的指導,或者告訴作家如何去迎合市場、如何才能更好地賣出自己小說的影視版權。」
美國「相對論傳媒」電影部門創始人瑞恩·卡瓦諾崇尚數據,利用數據預測電影票房表現再決定是否投資。他的名言是「即使我同意拍了,模型不同意也不行」。他曾與索尼聯合出品了電影《百貨戰警》,票房大約是投資的十倍。後來,電影《點球成金》找到卡瓦諾投資,他經過數據分析後認為這部電影不會賺錢。然而《點球成金》全球票房突破1億美元,並獲2012年奧斯卡金像獎最佳影片提名。卡瓦諾的電影部門最終在2015年宣布破產。
老師曾提醒戰玉冰,學術研究還是要回歸傳統方法,「數據相對淺表化,通過理論達成的研究對思維的鍛鍊更深刻。」如今,戰玉冰的主要精力用在三個傳統研究方向上,新增的數字人文方向,被他排在第四位。曾有一句話讓戰玉冰深有感觸,他依稀記得其大意:「數據是不可能取代人類的,也不要通過人類排斥數據。只是從此以後,我們多了一個更加全面的、天眼一般的閱讀者。」
杭州師範大學心理科學研究院副研究員胡超和走走合作,研究寫作對心理治療的幫助,借用軟體來分析文本中的情緒表達。「以往很多心理學研究重形式、輕內容,而文字是人類心理內容最重要的載體。一個現實因素是人工文本分析成本極高,這在快節奏發論文、申請基金的壓力下尤其突出。文本自動化分析技術可能是突破瓶頸的測量技術。」胡超告訴南方周末記者。
胡超目前發現,海子等自殺的詩人在其自殺前的作品文字情緒比過去都低,且更多採用第一人稱視角的「我」進行敘述。但對於已有的數據分析結果,他也存疑:「專業作家和普通人群的表達方式可能不同,有正話反說的現象,文字所表達的情緒可能不代表他本人的真實情緒。」
「現在技術就是需要越高層次、越抽象的理解力的時候,機器和人差得越遠。」鄭翔宇表示機器目前尚不能完全理解需要生命體驗的事情,如詩歌。「你去核查一篇文章的語法是不是正確,這件事機器已經超過人。詩歌需要一種經驗,需要一種很抽象的理解力,同時需要人作為人的經驗去理解。」
「用數字史學的方式去研究歷史,人的價值或者個性怎麼辦?」這是王濤常常聽到的質疑,對此他並不擔憂,「雖然資料庫是一樣的,算法是一樣的,甚至題庫都是一樣的,但是你給不同的人看,他基於他的見識,基於他的知識儲備,他對結果的認知可能是不一樣的。」
南方周末記者曹穎 南方周末實習生杜嘉禧
文章來源: https://twgreatdaily.com/uu2POW8BMH2_cNUgx0MD.html