本文來源:通識聯播
轉自:哲學園
編者按:斯特勞森曾說,邏輯不是先驗的,它與語言密不可分。這就是說,人類認知世界的工具——如數學推理,邏輯推理,理性,都是語言的產物。這意味著說,人類認知世界的能力是有局限性的,就像伽達默爾所說,語言就像是黑屋子中的手電筒,光柱照到哪裡,我們就看到哪裡。這是這篇文章讓我聯想到的東西。如果您對語言哲學感興趣的話,這篇文章值得一讀。——翻譯教學與研究
北京大學數學科學學院耿直教授開設的《普通統計學》課程是本學期的通識核心課程之一。
今天為大家帶來的是耿直教授所推薦的文章。該文章出自朱迪亞·珀爾著《為什麼:關於因果關係的新科學》(中信出版集團股份有限公司 2019.7.1)中第二章選段,介紹了關於因果推斷的起源。
因果推斷的起源
朱迪亞·珀爾
但它(地球)仍在動。
——出自伽利略(1564—1642)
弗朗西斯·高爾頓爵士在皇家學院展示他的「高爾頓板」(Galton board)或稱「梅花機」(quincunx)。
他將這種類似彈珠檯的儀器看作對基因特性(如身高)遺傳的類比。彈球會堆積成一個上邊緣為鐘形曲線的圖案,該曲線與人類身高的分布曲線非常相似。那麼,為什麼人類一代傳一代,其身高分布並沒有像彈球那樣散開?這一難題引領他走向了「向均值回歸」(regression to the mean)現象的發現。(資料來源:由達科塔·哈爾繪製。)
近兩個世紀以來,英國科學界最經久不衰的儀式之一便是在倫敦的英國皇家學院舉辦的「周五晚間演講」。
19世紀,很多重大發現都是在這個會場上由演講者首次對外宣布的:1839年,麥可·法拉第發表了他的攝影原理;1897年,約瑟夫·湯姆遜提出了電子理論;1904年,詹姆斯·杜瓦公布了氫液化理論。
每場演講會都是一次盛典,毫不誇張地說,演講會就是把科學當作舞台,而台下的觀眾則是精心打扮(男人必須身著禮服,佩戴黑領帶)的英國社會上層精英。到了指定的時間,鐘聲敲響,人們將迎接晚會的發言人步入禮堂。依照傳統,發言人會省去自我介紹或開場白,直接開始演講。實驗和現場演示都是這一壯觀場面的重要組成部分。
1877年2月9日那天晚上的演講者是弗朗西斯·高爾頓,英國皇家學院院士,他是查爾斯·達爾文的大表弟,著名的非洲探險家、指紋學創始人,維多利亞時期紳士科學家的典範。高爾頓演講的題目是「典型的遺傳規律」。當晚,他的實驗儀器是一種奇怪的裝置,他稱之為「梅花機」,現在該裝置常被稱為「高爾頓板」。一個名為Plinko的類似遊戲常出現在電視節目《價格猜猜看》中。高爾頓板由一塊木板和其上按三角形陣列排布的大頭針或釘子組成,操作者可以通過頂部的開口塞入小金屬球。金屬球會像彈球那樣從上往下逐層彈跳下來,最後落進底部的一排插槽中(見章首插圖)。對單個金屬球來說,向左或向右彈落看上去完全是隨機的。然而,如果你往高爾頓板里倒入很多小球,一個驚人的規律就出現了:在底部堆積的小球的上邊緣總是會形成一個近似鐘形的曲線。在最接近中心的插槽中,小球會堆得高高的,插槽中的球數從中間向兩側遞減,直至為零。
這種規律性的圖形模式有一個數學解釋:單個球下落的整個路徑就像一系列獨立的硬幣拋擲的結果一樣。小球每撞上一根大頭針,其或者彈向左邊,或者彈向右邊,表面上看,它的選擇似乎是完全隨機的。而所有結果之和,即往右彈落的次數與往左彈落的次數之差,則確定了小球最終會落於哪個插槽。根據1810年由皮埃爾–西蒙·拉普拉斯證明的中心極限定理[1],任何此類隨機過程,即多次硬幣拋擲之總效,都會導向相同的機率分布,這種機率分布被稱為正態分布(或鐘形曲線)[2]。高爾頓板只是拉普拉斯中心極限定理的一個直觀演示。
中心極限定理確實是19世紀的數學奇蹟。試想一下:雖然單個球的路徑是不可預測的,但1000個球的路徑的可預測性則非常高,這對《價格猜猜看》的製片人來說是一個很實用的事實。他們可以據此準確估算出在較長一段時間內參賽者在Plinko遊戲中贏得的獎金數量。此外,儘管人類事物充斥著不確定因素,但同樣的規律仍然讓保險公司獲利豐厚。
皇家學院中穿著考究的觀眾一定想知道這一切與遺傳規律到底有什麼關係,因為這是發言人約定的演講主題。為了說明二者的聯繫,高爾頓向觀眾展示了他所收集的關於法國軍隊新兵身高的數據。這些數據也遵循正態分布:多數人是中等身材,特別高或特別矮的人很少。事實上,無論我們談論的是1000名新兵的身高還是高爾頓板上的1000個小球的路徑,相對應的插槽和身高類別中的數字幾乎總是相同的。
因此,對高爾頓來說,梅花機就是一種關於身高遺傳的模型,甚至可能也是關於許多其他遺傳特徵的模型。這是一個因果模型。簡單來說,高爾頓相信,就像人類會遺傳他們上一代的身高一樣,金屬小球也會「遺傳」它們在梅花機中的位置。
但是,如果我們暫且接受這個模式,就會出現一個難題,這也是高爾頓當晚的主題。鐘形曲線的寬度取決於放置在釘板頂部和底部之間釘子的行數。假設我們將行數加倍,我們就構建了一個能夠表示兩代遺傳的模型,其中上半部分代表第一代,下半部分代表第二代。此時你就會發現,第二代比第一代出現了更多的變異情況,而在隨後的幾代中,鐘形曲線會變得越來越寬。
然而,人類身高的真實狀況並未出現此種趨勢。事實上,隨著時間的推移,人類身高分布的寬度保持了相對的恆定。一個世紀前沒有身高9英尺[3]的人類,現在依然沒有。那麼,是什麼因素解釋了這種總體基因遺傳的穩定性呢?自1869年高爾頓的《世襲的天才》(Hereditary Genius)出版以來,他已為這一謎題苦苦思索了八年。
正如書名所表明的,高爾頓真正感興趣的不是彈珠遊戲或人的身高,而是人類的智力。作為孕育了多位科學天才的大家族的成員之一,高爾頓自然樂意證明天賦在家族中代代相傳。他在這本書中著手做的正是這項研究。他煞費苦心地編纂了605名英國「名門之秀」上溯4個世紀的家譜。但他發現,這些名門之秀的兒子和父親並沒有那麼優秀,其祖父母和孫輩也並非都是卓越人才。
如今我們可以很容易地找到高爾頓研究方法中的缺陷。歸根結底,卓越的定義究竟是什麼?有沒有這種可能,即名門望族的成員獲得成功只是因為他們掌握的特權而不是因為其本身的才能?儘管高爾頓意識到了這種可能的解釋,但他初心不改,反而以更大的決心徒勞地尋求一個的遺傳學解釋。
不過,高爾頓在此過程中還是有所發現的,特別是當他開始關注類似身高這樣的遺傳特徵的時候。與「卓越」相比,身高特徵更易測量,跟遺傳的關聯也更強。高個子男性的兒子往往身高也比普通人高——但很可能不如他們的父輩高;矮個子男性的兒子往往身高比一般人矮——但很可能不如他們的父輩矮。一開始,高爾頓稱這種現象為「復歸」(reversion),後又改稱為「向均值回歸」(regression toward mediocrity)[4]。我們可以在許多其他的情境中觀察到這種現象。如果讓學生參加基於同樣複習資料的兩次不同的標準化測試,那麼,第一次測試得分較高的學生在第二次測試中的得分通常仍然高於均值,但沒有第一次那麼高。這種向均值回歸的現象普遍存在於生活、教育和商業領域的方方面面。比如,棒球賽中的「年度新秀」(第一賽季表現異常出色的球員)經常會遭遇「新秀牆」,即在次年的比賽中陷入表現欠佳的低谷。
當然,高爾頓並不知道這些,他認為他偶然發現的是一條遺傳規律,而不是統計規律。他認為,向均值回歸的背後一定存在某個因。在皇家學院的講座中,他說明了自己的觀點。他向聽眾展示了兩層的梅花機裝置(見圖2.1)。
圖2.1 高爾頓板,弗朗西斯·高爾頓用以類比人類的身高遺傳規律。(a)將許多小球扔進彈球儀器,隨機向下彈跳的小球堆積成鐘形曲線。(b)高爾頓指出,經過A和B兩個通道,通過兩層的高爾頓板(用以模擬兩代人)下落的小球所堆積成的鐘形曲線會變得更寬。(c)為了抵消這種曲線變寬的趨勢,他安裝了斜槽,以使「第二代」小球回到中心。斜槽是高爾頓對「向均值回歸」這一現象的因果解釋(資料來源:弗朗西斯·高爾頓《自然遺傳》,1889)
經過第一組釘子陣列後,小球會通過一個斜槽向板子的中心集中,之後再通過第二組釘子陣列。高爾頓藉助這一成功的演示,展示出斜槽的設置恰好抵消了正態分布的擴散趨勢。這一次,鐘形曲線在代代傳遞中保持了恆定的寬度。
因此,高爾頓推測,向均值回歸是一個物理過程,一種自然方式,用以確保身高(或智力)的分布在代代相傳中保持恆定。高爾頓告訴觀眾:「復歸過程符合遺傳變異的一般規律。」他將這一過程與胡克定律進行了比較,後者描述的是彈簧恢復到穩態長度的趨勢。
請記住這個日子。1877年,高爾頓致力於尋求一個因果解釋,並認為向均值回歸是一個因果過程,就像物理定律一樣。他錯了,但他的錯誤絕非個例。時至今日,許多人仍在繼續犯著同樣的錯誤。例如,棒球專家總是試圖尋找球員遭遇新秀牆的因果解釋。他們會抱怨,「他變得過度自信了」,或者「其他球員搞清楚了他的弱點」。他們也許是對的,但新秀牆實際上並不需要一個因果解釋,這種現象單憑機率規則就足以解釋了。
現代統計學的解釋很簡單。正如丹尼爾·卡尼曼在他的著作《思考,快與慢》中總結的:「成功=天賦+運氣,巨大的成功=更多的天賦+更多的運氣。」一個贏得年度最佳新秀獎的球員可能的確比一般人更有才華,但他(更)可能也有很多的運氣。在下個賽季,他可能就沒有那麼幸運了,他的平均擊球率也會因此下降。
到1889年,高爾頓已想通了這一點。在此過程中,他在統計學脫離因果關係的路上邁出了第一大步。這既讓人失望,也令人著迷。他的推理過程是微妙而晦澀的,但值得我們付出努力去理解。這是作為新生學科的統計學發出的第一聲啼哭。
高爾頓開始收集各種「人體測量」方面的統計數據:身高、前臂長度、頭部長度、頭部寬度等。他注意到,譬如當他根據前臂長度計算身高時,同樣的向均值回歸的現象又出現了:高個子男性通常有長度大於均值的前臂,但又不會像他的身高那樣遠高於均值。顯然,身高不是前臂長度的因,反之亦然。如果存在一個原因的話,那麼應該說二者都是由基因遺傳決定的。高爾頓開始使用一個新的詞來描述這種關係:身高和前臂長度是「共同相關的」(co-related)。之後,他又將這個詞簡化為一個更普通的英語單詞——「相關的」(correlated)。
後來,他又意識到一個更令人吃驚的事實:在進行代際比較時,向均值回歸的時間順序可以逆轉。也就是說,子輩的父輩的遺傳特徵情況也會回歸到均值。即兒子的身高若高於均值,則其父親的身高很可能也高於均值,但往往父親要比兒子矮(見圖2.2)。在意識到這一點時,高爾頓不得不放棄了尋找向均值回歸的因果解釋的任何想法,因為子輩的身高顯然不可能是父輩身高的因。
圖2.2 散點圖顯示了有關身高的數據集,每個點代表的是父親的身高(x軸)和他兒子的身高(y軸)的組合。虛線與橢圓的主軸重合,而實線(我們稱其為回歸線)連接了橢圓最右邊和最左邊的點。二者之間的差異就是向均值回歸的體現。例如,橢圓中的黑色星號顯示,父輩身高為72英寸,則其子輩平均身高為71英寸,即圖中垂直框中所有數據點的平均值為71英寸。水平框和白色星號顯示的是在非因果方向(時間逆轉方向)存在同樣的身高損失現象(資料來源:馬雅·哈雷爾繪圖,克里斯多福·布歇供稿)
這種認識乍聽起來可能自相矛盾。你可能要問:「等等!你是說,高個子的父親通常有相較他們自己而言較矮的兒子,並且同時,高個子的兒子通常有相較他們自己而言較矮的父親——這兩種說法怎麼可能同時為真?兒子怎麼可能既比父親高,又比父親矮?」
答案是,我們談論的並不是個體的父親和個體的兒子,而是父輩和子輩兩個總體。我們從身高6英尺的父輩總體開始算起。因為他們的身高高於均值,所以他們兒子的身高將出現向均值回歸的現象,我們姑且假設他們兒子的平均身高為5英尺11英寸。然而,由父輩身高為6英尺的父子組合構成的總體有別於由子輩身高為5英尺11英寸的父子組合構成的總體。第一組中,所有的父親都是6英尺高。但第二組中,父親身高超過6英尺的較少,大部分身高不到6英尺,他們的平均身高要低於5英尺11英寸,再次顯示了向均值回歸的趨勢。
另一種解釋向均值回歸的方法是使用所謂的散點圖(見圖2.2)。每對父子組合都由一個點來表示,其中x坐標表示的是父親的身高,y坐標表示的是兒子的身高。因而,父親和兒子的身高均為5英尺9英寸(或69英寸)的組合可以由點(69,69)來表示,如圖2.2所示,其位於散點圖的中心。身高6英尺(或72英寸)的父親和身高5英尺11英寸(或71英寸)的兒子的組合,則可以用點(72,71)表示,位於散點圖的東北角。請注意,散點圖的形狀大致呈橢圓形,這一點對於高爾頓分析以及揭示兩個變量的鐘形分布特徵而言至關重要。
如圖2.2所示,父輩身高為72英寸的父子組合的點位於以72為中心的垂直框(或稱「垂直切片」)內;子輩身高為71英寸的父子組合的點位於以71為中心的水平框(或稱「水平切片」)內。通過觀察可見,它們是兩個不同的總體。如果只關注第一個總體,即父輩身高為72英寸的父子組合,我們可以問的問題是:其中子輩的平均身高是多少?這等於是在問垂直框的中心位置,通過觀察可知其中心大約是71。如果只關注第二個總體,即子輩身高為71英寸的父子,我們可以問的問題是:其中父輩的平均身高是多少?這等於是在問水平框的中心位置,通過觀察可知其中心大約是70.3。
我們可以更進一步考慮以同樣的步驟分析每一個垂直框。這就相當於在問:對於身高為x的父輩,其子輩身高(y)的最佳預測是多少?或者,我們也可以取每個水平框,問它的中心在哪裡,即對於身高為y的子輩,其父輩身高(x)的最佳「預測」(或倒推)是多少?
通過思考這個問題,高爾頓無意間發現了一個重要事實:預測總是落在一條直線上,他稱這條直線為回歸線,它比橢圓的主軸(或對稱軸)的斜率小(見圖2.3)。事實上,這樣的直線有兩條,我們選擇哪條線作為回歸線取決於我們要預測哪個變量而將哪個變量作為證據。你可以根據父親的身高預測兒子的身高,或者根據兒子的身高「預測」父親的身高,這兩種情況是完全對稱的。這再次表明,對於向均值回歸這一現象,因和果是沒有區別的。
圖2.3 高爾頓回歸直線。圖中橫軸顯示的是子輩身高及偏差值,縱軸顯示了「中親」(mid-parents)[5]的身高及偏差值。如果你知道父親的身高,則直線OM將為你提供其兒子身高的最佳預測;如果你知道兒子的身高,則直線ON將為你提供其父親身高的最佳預測。這兩條直線都不同於散點圖中的主軸(對稱軸)(資料來源:弗朗西斯·高爾頓,《大不列顛和愛爾蘭人類學學院學報》,1886,第246–263頁,插圖X)
在已知一個變量的值的情況下,回歸斜率能讓你預測另一個變量的值。在高爾頓的父子身高問題中,0.5的回歸斜率意味著父親的身高每增加1英寸,相應地,兒子的平均身高就增加0.5英寸,反之亦然。回歸斜率為1表示兩個變量呈完全相關,這意味著父親每增高1英寸,這一變化都能完全地傳遞給兒子,使其平均身高增加1英寸。回歸斜率不可能大於1,否則高個子父親的兒子其身高會進一步高於平均值,矮個子父親的兒子其身高會進一步低於平均值,這將使得身高分布隨時間的推移而變寬。這樣一來,幾代後可能就會出現身高9英尺的人和身高2英尺的人了,而這與現實並不相符。因此,只要身高分布在世代相傳中保持不變,回歸線的斜率就不能大於1。
即使我們將兩個不同類別的量關聯起來,如身高和智力,回歸定律依然適用。如果你在散點圖中繪製這兩個變量的數據點,並對坐標系進行適當的縮放,則關於兩個變量之間關係的最佳擬合線的斜率總是具有相同的屬性:只有當一個量可以準確地預測另一個量時,斜率才等於1;而若預測結果幾乎等同於隨機猜測,則斜率等於0。無論你是根據Y預測X,還是根據X預測Y,斜率(在對坐標系進行了適當縮放之後)都是相同的。換言之,斜率完全不涉及因果信息。一個變量可能是另一變量的因,或者它們都是第三個變量的果,而對於預測目標變量的值這一目的而言,這些並不重要。
高爾頓提出的相關性概念首次在不依賴於人的判斷或解釋的前提下以客觀度量說明了兩個變量是如何關聯的。這兩個變量可以是身高、智力或者收入,它們可以是因果的、相互獨立的或反因果的關係。相關性總是能夠反映出兩個變量間相互可預測的程度。高爾頓的弟子卡爾·皮爾遜後來推導出了一個(經過適當調整的)回歸線斜率公式,並稱之為「相關係數」。時至今日,當我們想了解一個數據集中兩個不同變量的關聯有多強時,相關係數依然是全世界統計學家計算的第一個數值。找到這樣一種通用的方式來描述隨機變量之間的關係,高爾頓和皮爾遜一定曾為此激動不已。尤其是皮爾遜,在他的眼中,與相關係數這種在數學上清晰且精確的概念相比,那些關於因果的模糊而陳舊的概念似乎已經完全過時而喪失科學性了。
注釋:
[1] 中心極限定理是機率論的「無冕之王」,高爾頓曾盛讚它所蘊涵的宇宙秩序之美妙無可比擬,可見其對人類認知的影響是多麼深遠。——譯者注
[2] 也稱作「高斯分布」,是高斯在研究誤差理論時首次明確提出的,其密度函數曲線關於均值對稱,中間高兩邊低。中心極限定理揭示了在一定的條件下為何正態分布是普遍存在的。——譯者注
[3] 1英尺≈30.48厘米。——編者注
[4] 回歸「regression」一詞在英語中還有退化、退步、衰退、倒退的意思。——譯者注
[5] 女性的身高一般低於男性,因此高爾頓利用計算出的男女平均身高之比(1.08)將女性的身高乘以1.08換算成男性身高。高爾頓據此定義了「中親」(mid-parents)身高=1/2(父親的身高+1.08×母親的身高),用來計算父輩的身高。本書為了講述方便,將之簡化為父子身高。——譯者注
文章來源: https://twgreatdaily.com/zh-mo/kU07o3EBfwtFQPkdDXU4.html