復旦大學郁文:邁進人工智慧時代的統計學

2023-11-07     商學院雜誌

原標題:復旦大學郁文:邁進人工智慧時代的統計學

統計學本質上研究的是數據分析問題,加之幾乎任何領域都涉及數據分析,因此或多或少都能與統計學掛上鉤。事實上,很多現代工業的發展與科學研究的突破都離不開統計學在其中的推動。隨著大數據和人工智慧時代的到來,統計學作為人工智慧重要的支撐性學科,其研究熱點也與人工智慧有著相當密切的聯繫。隨著傳統的學科藩籬被打破,邁進人工智慧時代的統計學如何書寫新的圖譜?我以統計學經典分支「生存分析」中的一個研究工作為例展開討論。

復旦大學管理學院統計與數據科學系教授、系主任 郁文

生存分析包含了一系列處理持續時間相關數據的分析方法。它的主要起源之一是統計學在醫藥研發領域的應用。醫藥開發離不開臨床試驗,由於臨床試驗中,分析的持續時間常常是患者的「生存時間」,因此這些以分析生存時間為主要目的的方法被統稱為「生存分析」。最近,我與研究團隊共同完成了該方向的一個研究,提出了一種基於深度神經網絡的生存時間回歸方法。回歸模型是統計學中最常用的模型之一,主要用於尋找變量間的關係,還可用於預測。其中最常用的是線性回歸模型,因為線性結構相對簡單,又比較容易解釋和計算,但線性結構的簡單特徵使得它在很多實際問題中的表現有較大提升空間,因為現實世界比「線性」模式要複雜得多。

隨著人們可獲得的數據規模和數據形態大量增加以及算力的大幅提升,越來越多的學者希望突破線性結構來進行建模。深度學習是人工智慧的熱門話題,其中最重要的技術叫「神經網絡」,特別是深層次的神經網絡在足夠數據量的支撐下可以用來逼近相當複雜的非線性函數。在此背景下,我們思考能否將神經網絡這一工具引入生存分析的回歸建模中,以提升模型的預測效果。

「Cox 模型」是歷史上最經典的生存分析回歸模型,它的重要特徵是假設了自變量 X 對危險率函數的影響結構是一個線性結構。在經典模型基礎上,我們提出了一種新模型,其在兩個方面做了重要的改進,一是把自變量 X 的線性部分延拓成一個任意的函數m(X),即不給它加上所謂線性的限制;二是引入一個隨機效應,來刻畫那些沒有被數據收集到但對危險率存在潛在影響的因素。我們使用多層的前饋神經網絡來估計模型當中的函數 m(X), 推導了估計方法的理論性質,並驗證了新模型在實際應用中會有更好的預測效果。

近年來,從統計學視角研究深度學習和神經網絡的工作原理成為統計學領域一個備受關注的研究方向,不少國際頂尖統計學者關注深度學習、預訓練技術,甚至大型模型的運作機理等,試圖從統計學角度提供理論依據,以尋找人工智慧算法表現出眾的原因。還有很多統計學者致力於將深度學習、神經網絡技術與傳統的統計模型和方法進行結合,希望提升傳統統計方法的性能和表現。上述我的研究工作就是將神經網絡與生存分析當中的回歸模型進行結合與拓展,也屬於這一範疇。這些都是邁入人工智慧時代的統計學研究所展現出來的重要特徵。

作者系復旦大學管理學院統計與數據科學系教授、系主任郁文

來源 | 《商學院》雜誌2023年11月刊

文章來源: https://twgreatdaily.com/9558fd6bf35bb7a1d752c297e5bbef25.html