「抬槓」到底有多大價值?從資訊理論來看,它沒價值

2019-08-04   余晟以為

因為早年做過相關的開發,我大致了解搜尋引擎的基本原理。不過這些年來我發現,這種原理完全可以用在其它地方,比如識別信息質量,比如識破詭辯術。

搜尋引擎要解決的核心問題是,如何在浩如煙海的文檔中,找出來用戶最關心的那部分。換句話說,當用戶希望了解某個話題或事物時,如何識別出對他/她最有價值,最讓他/她感興趣的那些資料(這裡不討論競價排名)。為此,無數的科學家、工程師、程式設計師都做了大量的工作,才有了現在大家覺得「理所當然」的搜尋引擎。

最近幾年,網絡上的信息越來越多,不同意見也越來越多樣化。那麼如何找到真正靠譜的、有價值的信息,如何識破各種詭辯?這已經成了人人都要面對的一個問題。其實,這個問題也是可以從搜尋引擎中得到啟發的。

不要以為這「原理」相當深奧,普通人只需要知道「最基本最簡單」的TF-IDF,就能理清很多東西了。

TF,即Term Frequency,指一個「語詞」(term,也可以簡單理解為「單詞」,WTO、感冒、華為 都是「語詞」)在文檔(document,也可以理解為「文章」,對應到搜索結果中的一條)中出現的頻率。

通常,在判斷文檔相關性時,TF與結果正相關(未必是「成正比」)。這個道理也不難理解,如果有兩篇篇幅類似的文章,一篇「華為」出現了10次,一篇「華為」只出現了2次,那麼我們可以推斷,前者與「華為」的關係更密切,用戶在搜索「華為」時,前者應當出現在更靠前的位置。

IDF,即Inverse Doc Frequency,有中文翻譯為「逆向文件頻率」,理解起來稍微麻煩一點:文檔總數與包含該語詞的文檔數目的比值。有許多人相當認為這是個「含量」,所以比值應當小於1,這是把分子和分母搞反了,也是「逆向」的意思所在。

通常,在判斷文檔相關性時,IDF也與結果正相關(未必是「成正比」),而且彌補了TF的片面性。如果單純以TF來考察相關性,比如「的」這個字是各種文章中出現頻率都極高的,其TF相當高,但不能用來說明信息質量。因為其IDF很低,接近於1(注意IDF是「倒過來算的」,所以如果只有1/10的文檔中出現了了這個語詞,其IDF是10)。

再比如,如果某個資料庫都是關於中國的,其中包含了政治、軍事、經濟、文化各種主題的許多資料。那麼可以肯定,基本每篇資料都包含「中國」這個語詞,而包含「國防」的資料只占其中的一部分。顯然,「國防」比「中國」更容易區分出相關的資料,在搜索時也更容易找到對應的結果。對應的,「國防」的IDF值顯然遠高於「中國」。

好了,技術內容就談到這裡。簡單說,以特定語詞搜索時,文檔中特定語詞出現「密度」越高,文檔和語詞的關聯度就越高;該語詞的「普適性」越低,篩選出高質量文檔的幾率就越高。

下面可以引申開來:如果我們要做的不是搜索,而是討論某個主題,獲得相關的信息,並判斷信息的靠譜程度,是否可以從TF-IDF中得到一些啟發?

答案應當是肯定的。

如果某篇文章「看起來」是關於某個主題的,那麼這篇文章毫無疑問應當緊扣這個主題。倘若內文其實並沒有太多緊扣主題的論述和分析,那麼借鑑TF的思想,這篇文章的參考價值相當有限。

如今有不少面目可疑的文章正是走的這個路子。標題嚇死人,態度很明確,結論斬釘截鐵。但是仔細看內文,發現作者能給出的確定事實很少,他們既不做實地調查,也省掉多方比較(許多時候作者甚至對問題領域缺乏基礎的認知),只能玩帽子戲法,東拉西扯一堆看似有關的材料,或者講幾個「讓讀者以為相關」的歷史故事,最後移花接木,繞回到標題上來。

這真是「暖風熏得遊人醉,直把杭州作汴州」,但是怎麼避免呢?其實很好辦,就是清醒認識,抵禦各種「暖風」——在閱讀時不要被各種段子、故事、表情包、配圖給熏醉了,時刻記住主題。

如果面對相對專業的主題,作者之前又沒有相關領域的積累,應當尤其小心,因為此時不專業的讀者非常容易被不專業的作者蒙蔽。比如馬航MH370墜毀事件,仔細看那些言之鑿鑿的不靠譜文章,作者基本都拿不出任何與當次飛行有關的確切信息(大概也不知道上哪裡去找確切信息),所以只能依賴想像和猜測(《大西洋月刊》近期封面文章《「晚安。馬航370」》很好地解釋了什麼是「信息質量」,記者的描述嚴謹客觀,被報道的熱心探尋者的行動有理有據)。

社會歷史、政治經濟類的文章,看起來是大眾話題,也不能放鬆大意。因為這類問題要真正談好,作者的駕馭能力要相當高,必須依賴大量的閱讀和反覆的思考。而許多「爆款」文章看起來內容豐富,有眾多聞所未聞的故事「拱衛」主題,仔細分析就發現存在邏輯斷層,無法證明「歷史故事與當前主題是邏輯一致的」,所以其實無非是勉力拚湊而已。

還有一些主張、論斷,它們聽起來鏗鏘有力,但借鑑IDF的思想就會知道,如果這些主張、論斷對於任何主題都可以適用,那麼從IDF的角度來看,其信息價值是相當有限的。

姜昆和李文華曾經說過一段深受大家喜愛的相聲《如此照相》,諷刺的是特殊年代裡生活中做任何事情都要先背誦一句語錄的現象。凡事都要「背語錄」,那麼它就好像上文提到的每篇文章中的「的」字,或者關於中國的資料庫里的「中國」一樣,區分度很低,無法證明其有效性。事實證明,廣大人民群眾不背語錄,照樣不影響正常生活。

當然,這種「IDF極低」的現象還有很多,比如網絡上的「槓精」常用的詰問也是如此。使用這些「萬精油」式詰問,對知識儲備、邏輯思維等等沒有任何要求,隨時可以祭出:你怎麼知道你知道的就是真的?你以為就你看得多,多看了點東西就了不起?沒有什麼是絕對的好事,沒有誰是聖人,一切都要辯證地看……

如果我們從信息價值的角度來分析,就會發現這些詰問其實也沒什麼信息質量也提供不了什麼信息價值。

沒有人能確認自己知道的絕對「就是真的」,重要的是在比較甄別中接近客觀真相。如果既不能找出對方論述中的重要錯誤,也不能提供信息含量更高的信息,那麼「你怎麼知道你知道的就是真的?」本身是沒有意義的。

在討論問題時,「看得多」和「了不起」是沒有關聯的。如果對問題背景有充分的了解,對問題領域有持續的關注,那多半是比其他人「看得多」。如果認可判斷的依據是信息和知識,自然的結論就是,多看點之後下的判斷往往更靠譜。所以與其反問「多看了點東西就了不起」,不如自己多讀多看,多提供一點有價值的信息出來。

事和人確實都沒有絕對的好壞,但這不意味著我們無法對事和人作出確切的判斷。如果大家的判斷不一致,應當擺出事實來,進行細緻(最好是可以量化)的分析。一個人做了件好事造福了一百萬人,不能簡單拿「它也損害了三五個人」來否定,一個做了一萬件好事的人,也不能簡單用「他也做過兩三件壞事」來否定。

同樣道理,一個人或一個國家做事可能出於利益考慮,也可能出於道德考慮。真正有意義的討論必然是具體而具體的,做這件事是出於道德考慮還是利益考慮?或者二者兼而有之,但其中哪種因素更重要?如果當時確實是出於道德考慮,或者更多出於道德考慮,那麼通過簡單的「沒有誰是聖人」或者「沒有國家講道德」得出粗陋的結論,只會擾亂認知,把討論變成口舌之爭。

最後需要註明的是,上面的論述都是從基於「信息質量」,而不是基於「熱鬧」或者「話題性」而展開的。世界很大,大家看中的因素各不相同。有些人在乎的就是熱鬧,而不在乎信息質量,這本身無可厚非,說清楚即可。

而且在這個時代,如果你注重提升自己的信息質量,或多或少會有一些副作用,要放棄一些熱鬧的話題,甚至傷了某些人的面子。不過冷靜下來想想,堅持做下來的話,收穫還是比付出要多,總的來說還是划算的,對吧?