復旦大學郁文：邁進人工智慧時代的統計學

統計學本質上研究的是數據分析問題，加之幾乎任何領域都涉及數據分析，因此或多或少都能與統計學掛上鉤。事實上，很多現代工業的發展與科學研究的突破都離不開統計學在其中的推動。隨著大數據和人工智慧時代的到來，統計學作為人工智慧重要的支撐性學科，其研究熱點也與人工智慧有著相當密切的聯繫。隨著傳統的學科藩籬被打破，邁進人工智慧時代的統計學如何書寫新的圖譜？我以統計學經典分支「生存分析」中的一個研究工作為例展開討論。

復旦大學管理學院統計與數據科學系教授、系主任郁文

生存分析包含了一系列處理持續時間相關數據的分析方法。它的主要起源之一是統計學在醫藥研發領域的應用。醫藥開發離不開臨床試驗，由於臨床試驗中，分析的持續時間常常是患者的「生存時間」，因此這些以分析生存時間為主要目的的方法被統稱為「生存分析」。最近，我與研究團隊共同完成了該方向的一個研究，提出了一種基於深度神經網絡的生存時間回歸方法。回歸模型是統計學中最常用的模型之一，主要用於尋找變量間的關係，還可用於預測。其中最常用的是線性回歸模型，因為線性結構相對簡單，又比較容易解釋和計算，但線性結構的簡單特徵使得它在很多實際問題中的表現有較大提升空間，因為現實世界比「線性」模式要複雜得多。

隨著人們可獲得的數據規模和數據形態大量增加以及算力的大幅提升，越來越多的學者希望突破線性結構來進行建模。深度學習是人工智慧的熱門話題，其中最重要的技術叫「神經網絡」，特別是深層次的神經網絡在足夠數據量的支撐下可以用來逼近相當複雜的非線性函數。在此背景下，我們思考能否將神經網絡這一工具引入生存分析的回歸建模中，以提升模型的預測效果。

「Cox 模型」是歷史上最經典的生存分析回歸模型，它的重要特徵是假設了自變量 X 對危險率函數的影響結構是一個線性結構。在經典模型基礎上，我們提出了一種新模型，其在兩個方面做了重要的改進，一是把自變量 X 的線性部分延拓成一個任意的函數m(X)，即不給它加上所謂線性的限制；二是引入一個隨機效應，來刻畫那些沒有被數據收集到但對危險率存在潛在影響的因素。我們使用多層的前饋神經網絡來估計模型當中的函數 m(X), 推導了估計方法的理論性質，並驗證了新模型在實際應用中會有更好的預測效果。

近年來，從統計學視角研究深度學習和神經網絡的工作原理成為統計學領域一個備受關注的研究方向，不少國際頂尖統計學者關注深度學習、預訓練技術，甚至大型模型的運作機理等，試圖從統計學角度提供理論依據，以尋找人工智慧算法表現出眾的原因。還有很多統計學者致力於將深度學習、神經網絡技術與傳統的統計模型和方法進行結合，希望提升傳統統計方法的性能和表現。上述我的研究工作就是將神經網絡與生存分析當中的回歸模型進行結合與拓展，也屬於這一範疇。這些都是邁入人工智慧時代的統計學研究所展現出來的重要特徵。

作者系復旦大學管理學院統計與數據科學系教授、系主任郁文

來源 | 《商學院》雜誌2023年11月刊

復旦大學郁文：邁進人工智慧時代的統計學

數字栩生：喚活數字人

「綠色」能否重新定義一個星巴克

連夜打造冰雪大世界，「河北卷王」能否接棒「爾濱」？

理性消費時代，人們還是離不開泡泡瑪特？

「中國智造」再落一子康佳集團把握「一帶一路」機遇

中集集團吳發沛：商業向善是企業可持續存在的基本要求

清華大學朱旭峰：企業低碳轉型是新型政商關係的體現

收購印尼電商公司，TikTok東南亞合規風險暫解

廣聯達：數字化賦能綠色建築行業的全生命周期

維達力，綠色工藝如何助力可持續發展

中年天能加速變「綠」

小企業有資格做品牌嗎？

食以味為先，博世Cookit數字化賦能綠色廚房

換機潮來襲，二手手機如何進入「綠色循環」？

綠心公園，打造一個「會呼吸」的海綿城市

家族辦公室，如何實現對家族財富與精神的雙重守護？

建築業謀「綠」：保利大都匯的「碳中和」探索

京都律所滕傑：分類新規為信託公司開展創新業務提供指引四大痛點阻礙轉型

南開大學韓良：信託合規重要性凸顯法律制度亟需完善

六赴進博之約，強生骨科升級「創新密度」

復旦大學郁文：邁進人工智慧時代的統計學

打造中國特色ESG，企業應該怎麼做？

高德地圖「卷」向國際，北斗加持不止出行

「三分類」背景下，信託行業面臨的困惑與轉型路徑