從空城計到阿爾法狗,博弈論如何滲透我們的生活?

2019-09-20     返樸

橫跨數學、經濟學和人工智慧等諸多領域的博弈論,是一門極富挑戰性而又美輪美奐的交叉科學。物理學家朗道曾感嘆自己生不逢時,包括他在內的一流科學家,在當時都只能研究二三流的問題。如今耕耘在博弈論領域的學者則幸運許多,這裡不僅有一堆一流的問題有待研究,而且還有許多重要問題尚未被發現。

撰文 | 劉魯川(南方科技大學金融系教授)

2016年,有那麼一隻「狗」大鬧天宮,這在整個人類社會引起了軒然大波。它就是阿爾法狗(AlphaGo),是谷歌(Google)旗下公司DeepMind 在人工智慧與博弈論交叉研究上的一個傑作。這隻狗不僅在當年以4:1擊敗了圍棋世界頂級選手李世石,次年又讓位列世界第一的柯傑淚灑棋盤。圍棋是一個最具挑戰性的智慧遊戲,而人工智慧博弈在圍棋上戰勝了人類頂級棋手,無疑標誌著一個嶄新時代的到來。現在就讓我們一起了解一下人工智慧博弈背後的科學:博弈論(Game theory)。

說到博弈論,我們不禁會聯想到那些充滿權謀智慧的歷史故事。比如戰國時期的田忌賽馬、孫臏獻計,都是以己方相對優勢的組合策略去戰勝絕對優勢的對方。這是博弈理論中最佳對策(best reply)的一個範例。在三國演義中,諸葛亮唱的那出嚇退司馬懿大軍的空城計,更是在不對稱信息環境下實踐行為博弈的傳奇。

1、博弈論領域的科學巨人和他們的學說

現代博弈論的誕生是以四十年代數學大師馮·諾依曼(John von Neumann)和經濟學者摩根斯坦(Oskar Morgenstern)的巨著《博弈理論與經濟行為》的出版為標誌的。馮·諾依曼可謂是一位文藝復興式的科學「綜」師。他不光是二十世紀最偉大的數學家,還是博弈論和計算機之父。他建立了量子力學的公理化體系。博弈論學科的建立也是一個歷史的必然。第二次世界大戰等國際政治對抗不僅催生了原子彈,也直接推動了計算機、博弈論、密碼學等新興學科的發展。博弈論這門智慧遊戲的科學,從它誕生的一天開始,就玩得有些大。它的學術領域一直十分活躍,群星閃耀,不乏神奇。已先後有十幾位科學家因為他們在博弈論及其應用領域上的卓越成就,而拿到了諾貝爾經濟學獎。



John von Neumann。1944年,馮·諾依曼與摩根斯坦合著的《博弈理論與經濟行為》出版,標誌著現代博弈論的誕生。


我們必須要講到是一位數學奇才:納什(John Nash)。他二十幾頁的博士論文給出了策略博弈中的一個基本解概念,這就是後來以他的名字來命名的納什均衡理論(Nash equilibrium)。在這裡均衡的理念就是,在一個非合作博弈中,一旦所有玩家的行為達到了一個均衡狀態,那麼其中任何一個理性玩家都不會願意單獨改變他的策略。因為任何單獨的改變,都不會給他帶來任何的好處。均衡概念是博弈論以及現代經濟學理論的一個最基本的思想。

納什因為其偉大的工作,成為了第一批拿到諾貝爾經濟學獎的博弈論科學家。有一部好萊塢大片叫《美麗的大腦》(A beautiful mind,又譯「美麗心靈」)就是講他的故事。電影現實與虛幻結合,十分好看。My God, 博弈論還能拿奧斯卡。九十年代我在美國石溪大學讀研究生。石溪是博弈論科學家經常匯聚的一個中心,從九零年起每年都會舉辦國際博弈論大會。每逢大會,這個領域的科學家和學生雲集,博弈論的大師們也會到場。當年在會場上,不難看到納什這個「美麗的大腦」在四處遊蕩。


「美麗的大腦」John Nash。納什因為「在非合作博弈理論中對均衡的開創性分析」,與John Harsanyi 和 Reinhard Selten 一起獲得1994年諾貝爾經濟學獎。


另一位博弈論的宗師沙普利( Lloyd Shapley )更是一位有故事的人。合作博弈論有以他名字命名的價值理論Shapley Value,給出了可轉讓資源分配的一個必備準則。他提出的隨機博弈(stochastic game)問題是博弈理論領域中的頂級難題之一,引一代又一代天才科學家為其折腰。我的導師尼曼(Abraham Neyman)就是這個領域的領航者。他與我的另一位老師莫頓斯(Jean-Francois Mertens)在八十年代解決一個困擾這個領域二十多年的開放問題。(忍不住要私下抱怨一下,莫頓斯的課是我所有上過的課中最虐人的,沒有之一。)

前面所提到的AlphaGo可以算是人工智慧在解決隨機博弈問題上的一個實踐了。沙普利與羅斯(Alvin Roth)在2012年分享了諾貝爾經濟學獎,則是由於他在資源匹配理論方面的偉大工作。他與合作者蓋爾(David Gale)設計了一套算法證明了兩維穩定匹配一定存在。他們的「婚配」理論模型建議,無論男女哪方,誰先主動追求,誰最後的結果就會更有利些。博弈論的理論研究居然還能帶出情感自由的絢麗火花來,真是令人嘆為觀止。

沙普利與中國也很有淵源,二戰期間他曾作為美軍專家駐守重慶,專門破譯日軍的加密電報。而在他以後的學術生涯中也指導培養了多名中國學者,美國加州大學的秦承忠教授就是出自他的門下。開掛的人生自然要有不一般的性格。據說當年瑞典皇家學院打電話通知他榮獲了諾貝爾經濟學獎,而他的第一反應卻是詰問來電話的人,他是一個數學家,為什麼要拿經濟學的獎。



Lloyd Shapley因為「關於穩定匹配與市場設計實踐的理論」,與Alvin Roth 一起獲得了2012 年諾貝爾經濟學獎。| 照片:U. Montan / The Nobel Foundation


我們的老師奧曼(Robert Aumann)是一個會講故事的人,風趣幽默,無論多麼艱深的理論在他口中都變成了雅俗共賞的藝術。上他的課如同在聽音樂會,使人心靈陶醉。奧曼的風範,與他是科學和宗教的雙重大師不無關係,在他那裡,人類的理性與上帝是如此的接近。人類在思考,上帝在微笑。奧曼蓄著銀白色的大鬍子,那是他科學先哲的標誌。

奧曼與納什、沙普利等是現代博弈論的學術領袖,他與沙普利共同發展了合作博弈論中的價值理論。他提出的共同知識學說(Common knowledge)是博弈論的一個哲學基礎,「我知你知,你知我知你知,我知你知我知你知……」 真可謂道可道非常道,玄之再玄。有後人評說,司馬懿之所以沒敢入諸葛亮的空城,是因為他掉進了與孔明的共識怪圈,就沒能出來。(你信嗎?反正我信了。)

奧曼在重複博弈(repeated game)領域作出了奠基性的工作。我們都知道,在囚徒困境博弈中,合作並不是納什均衡。但基於奧曼的理論,只要重複博弈的次數足夠大,囚徒的合作也可以是均衡點。這就是有名的佚名定理(Folk Theorem)。我在當學生時著迷於奧曼的相關平衡理論(Correlated equilibrium), 那些如太陽黑子般的世外影像,卻可以引導人們產生出更豐富多彩的關聯的經濟行為,如商業波動等。相關均衡不僅是納什均衡概念的理論發展,而且其概念的簡單性又讓它避免了納什均衡計算上的複雜性,真是美妙。

由於他在博弈論的卓越建樹,奧曼在2005年獲得了諾貝爾經濟學獎。他領導編著了博弈論百科全書,並建立了以色列決策科學與理性中心和美國石溪博弈論中心等學術機構,締造了現代博弈論學派建設的平台。



Robert Aumann 因為「通過博弈論分析增強了我們對於衝突與合作的理解」,與Thomas Schelling 一起獲得了2005年 諾貝爾經濟學獎。| 照片:D. Porges / The Nobel Foundation

2、博弈論的學科結構:數學與經濟學的交匯

簡單來說,博弈論是一門研究智慧個體相互作用與決策的科學,是數學、經濟學和人工智慧等學科交叉的科學。博弈論作為數學的一個分支領域,可以把它與運籌學來類比。運籌學有兩個基本任務:優化和分配。我們在中學都學過求極值的問題。簡單地說,博弈論就是多元的優化和分配的推廣,是研究在多元相互作用的系統中個體或群體決策的科學。然而與運籌學不盡相同的是,博弈論也關顧博弈參與者的理性、智慧、行為,以及信息環境。也有與行為科學相交叉的進化博弈論分支。博弈論分為非合作博弈(策略博弈)和合作博弈兩大領域。讓我們通過介紹博弈論在經濟學上的發展,來了解它的基本學科框架。

當代博弈論一問世就與經濟學聯繫在一起,馮·諾依曼和莫根斯坦那本開山巨著就以這個題目來命名。如果拿經濟學與物理學相比較的話,那博弈論就是經濟學理論中的「量子力學」。博弈論和一般均衡理論(general equilibrium)是當今經濟學理論的基本語言和範式。從微觀的視角來看,在我們的經濟體系中存在不同的經濟個體,它們不僅具有自我行為,同時也在交互作用著。無論是個人,還是社區;無論是公司企業,還是政府部門,我們都可以把它們的行為簡化成一個模型:

為了個體自己的目的,做出自己的行為決策。


而這些經濟個體的最終利益不僅與自身的行為有關,而且也取決於其他個體的行為。例如華為在手機市場上的營利不僅來自於公司自身的研發、生產和銷售上的作為,還要看蘋果、三星和國內對手的動作。如果不研究對手,不觀大局,我們所謂的「勤勞致富」就形同於盲人摸象。競爭就是在體系中與其他個體交互作用中為達到最大利益的最優行為。研究經濟個體的競爭行為是微觀經濟學的範疇,也是經濟學中的非合作博弈理論。非合作博弈最基本的解決方案,就是上面介紹的納什均衡。

金融學中有一難題,是套利的極限。套利是利用資本市場中資產價格錯配的機會,採取金融交易手段來套取營利的活動。如果有一天,你發現周邊有兩個農貿市場都在賣同樣一種蘋果,但價格卻不盡相同。你可向朋友借些錢,買了便宜的蘋果去另一市場高價出售,還了朋友的錢後,留在兜中的錢就是你的套利了。(拜託,不要再向我推銷了。我這裡的蘋果已經吃不消了。)

市場有效性假說認為,市場上幾乎不會存在這種套利機會,因為一旦有套利機會,無數投機者就會蜂擁而至,套利機會也就會隨之而消失。但現實並非如此,市場上套利機會還是隨處可見。施萊佛(Andrei Shleifer)和威斯尼(Robert Vishny)應用博弈理論模型解釋了這個套利極限的問題。他們認為,專業基金管理人受制於投資人對業績表現的要求,而不能無條件地在任何市場條件下完成套利操作。

除了競爭,在經濟社會中人們也會尋求合作。

  • 一個社會收取了各類稅項,這些財富資源如何重新分配呢?
  • 一個城市建設了一個機場,如何來讓航空公司去分攤機場的建設和營運成本?


更一般的,什麼樣的合作形式最有效?社會資源如何分配最合理?這些就是合作博弈論研究的核心問題。

沙普利和奧曼的價值理論為社會資源的分配提供了一個必備的基礎準則:一個經濟個體可以參與社會中各類不同的團體(coalitional game),而這個個體最後可以獲得的資源應該取決於它對所有社團邊際貢獻(Marginal contributions)的統計平均值。哇,分配決定於貢獻,老沙他們挺社會主義的。而沙普利又與蓋爾為互補資源配置建立了穩定匹配的理論,那麼浪漫的東西,留給你們自己去探究吧。

人類分配資源和決定組織領導的常用手段是選舉表決,我們叫它民主。選舉表決的民主方式真是完美的嗎?法國啟蒙運動的領袖孔多塞(Condorcet)指出,當有三個備選對象時,民主方式可能會失效。選舉表決也許不能決定出大家公認的領袖。這就是著名的孔多賽悖論。他的思想後來被發展成阿羅不可能原理(Arrow impossible theorem),它是社會選擇(Social choice)領域的基石。

我們做金融的最經常接觸到的就是金融資產和金融市場。「市場定價」(Mark to market)也常我們被用來作為一個行業信條。那什麼樣的市場更有效?更能準確地反映資產的價值?這就是博弈論中機制設計(Mechanism design)研究的問題。市場中有公開拍賣(Open auction)和封閉拍賣(Sealed auction)。

公開拍賣的方式有多種。荷蘭式拍賣是源自於荷蘭鮮花市場由高到低的叫價,買者可一口承接。我們在藝術品拍賣會看到的是所謂英式拍賣,競拍者由低向高地競相出價,拍品最後由最高出價者購得。

香港政府也常用封閉拍賣方式出讓土地。在封閉拍賣中,讓出價最高者購得拍品是自然了,但讓他付什麼樣的價錢,卻是學問了。直覺上似乎是,贏家出的最高價,就應該支付最高價吧。實則非也。我們要讓最高出價的贏家以第二高出價的價格來購買拍品,這叫第二價拍賣(Second price auction)。你能理解為什麼在封閉拍賣中第二價拍賣最有效嗎?競拍者的出價會更會接近他自己對拍品的真實估值,這樣的市場設計能讓買家說實話。

3、博弈論與人工智慧:一枚硬幣的兩面

馮諾依曼與人工智慧之父圖靈的交集可追溯到他們在美國普林斯頓大學的學術生涯,那時,他們一個是大牌教授,一個是天才學子。他們兩位又同是計算機科學的奠基者。博弈論與人工智慧如同是一枚硬幣的正反兩面。一個要研究智慧個體的相互作用與決策,一個是要使人類智能機器化。當我們想讓計算機和機器去像人類一樣學習、思考和行為,實際上就是在讓機器對其自身、對手和環境進行認知和智慧博弈。人工智慧也就是要把博弈論機器化。

如果要把人工智慧改稱為「人工博弈論」(Artificial game theory),肯定會有人反對。「Come on, 作博弈論的一邊玩遊戲去。我們還在忙著看圖識字呢!」 一個博弈論和機器學習交叉結合的範例是強化學習(Reinforcement learning)。讓我們用最前面所提到的那隻AlphaGo 來演繹強化學習的概念吧。

作為人工智慧的主體,AlphaGo 與人類棋手進行圍棋對弈,它的目標就是通過最佳策略來取得勝利。顯然,它的最佳策略不僅要依照圍棋的規則,還要針對對手的行為和策略。在強化學習中,AlphaGo 首先要建立一個由每個階段的獎勵信號(reward signal)與評價函數(value function)所構成的目標評價體系, 通過評估局面的勝率來指導決策。第二部分是建立它的策略函數(Policy function),能夠根據對手的行為和棋局的分析產生出合理的對策。

在博弈中隨著棋局的變化,AlphaGo從它的策略函數中產生使目標評估勝率最大的策略。AlphaGo是通過學習其自我生成的大量盤局,來形成它的目標評價體系和策略函數的。這就是關於那隻 AlphaGo 強化學習的簡約版故事。[其技術包括深度神經網絡(Deep neural network)和蒙特卡羅樹搜索(Monte Carlo tree search)等技術,已超出本文的內容。] 強化學習在經濟和金融方面的應用前景是顯而易見的。

儘管我們不好把人工智慧完全等同於人工博弈論,但搞計算機的人愛玩遊戲卻是不爭的事實。人工智慧科學有一個巨大的遊戲場,這就是算法博弈論(algorithmic game theory)。圖靈獎科學家姚其智和米卡利(Silvio Micali)是這一領域的領軍人物。

算法博弈首先關注博弈理論中的計算問題,有什麼樣的算法可求解?算法是否可有效地在計算機上實現出來?鄧小鐵等華人學者在納什均衡計算複雜性的研究上做出了卓越的貢獻。最近德州撲克博弈專家薩德豪姆(Tuomas Sandholm)和他的合作者布郎(Noam Brown)在多人撲克的智能博弈上又取得了突破性的進展。

算法博弈論的另一條發展方向來源於計算機領域的分布式計算。它的一個基本問題是如何協調非中心控制的分布式的計算資源。在一個分布式系統中,如果有些結點上出現了問題,這個系統還可以正常工作嗎?這就是著名的拜占庭將軍問題(Byzantine failures)。當前非常活躍的區塊鏈技術也是算法博弈與密碼學等領域的交匯。作為密碼學與算法博弈大師的米卡利,最近推出了他的區塊鏈(blockchain)項目Algorand,備受業界的關注。

算法博弈蓬勃發展的一個主要動力還來自於它在網際網路經濟生活中的廣泛應用。從谷歌、百度網頁上的廣告拍賣,到滴滴出行、Airbnb共享平台的機制設計,從人體器官移植的配匹,到今日頭條等資訊的個性化推薦,算法博弈都是支撐它們的核心基礎技術。今天,博弈論正以嶄新的方式走進我們生活的方方面面。

4、結篇寄語

儘管博弈論中的一些問題和它的樸素思想或許可以追源到遠古,但當今博弈論學科的發展卻日新月異、風華正茂。博弈論學科橫跨數學、經濟學和人工智慧等諸多領域,是一門極富挑戰性而又美輪美奐的交叉科學。當年著名物理學家朗道曾感嘆自己生不逢時,當時包括他在內的一流科學家,在物理學領域,也只能研究二三流的問題。當今博弈論領域,不僅有一堆一流的問題有待研究,而且還有好些重要問題尚未被發現。這也是為什麼,博弈論領域碩果纍纍、群星璀璨。近年來它也成為諾貝爾經濟學獎得主的搖籃。在博弈論的學術領域,我們華人科學家也是人才濟濟,成就斐然。比如周林教授因其在博弈理論研究上的卓越工作,於2009年入選世界計量經濟學學會會士(Fellow) (這裡並不試圖對華人學者在博弈理論領域的工作進行全面的介紹)。

博弈論也是一門實用性學科,它的基本原則和策略方法早已成為現代政治生活、經濟活動、金融投資、商業決策和組織管理等領域必備的行為規範和實踐手段。諾貝爾經濟學獎得主羅斯曾倡導,經濟學者也是工程師。他本人就在身體力行,是博弈論在社會資源匹配應用實踐上的先行者。

今天,隨著博弈論與人工智慧的交匯,以及算法博弈的長足發展,博弈論正從科學的殿堂大步走出,匯入工程技術的廣闊海洋,在各個方面服務於我們的生活。

年輕的朋友們,讓我們一起來了解和學習這門研究和實踐智慧遊戲的學科——博弈論。

閱讀建議

國際上博弈論的專業教材和雜誌文獻十分豐富,這裡推薦幾本國外文獻的中譯本來作為我們入門學習的教程。

  • 學科科普

《納什均衡與博弈論》湯姆•齊格弗里德 (作者), 洪雷 (譯者), 陳瑋 (譯者), 彭工 (譯者)

  • 學科應用

《策略思維——商界、政界及日常生活中的策略競爭(大師細說博弈論)》阿維納什·K·迪克西特 (作者), 巴里·J·奈爾伯夫 (作者);

《妙趣橫生博弈論:事業與人生的成功之道》迪克西特(Dixit A.K.) (作者), 奈爾伯夫(Nalebuff B.J.) (作者)

  • 學科專業

《博弈論基礎 (當代經濟學教科書譯叢) 》羅伯特·吉本斯 (作者), 高峰 譯 (譯者), 魏玉根 校 (譯者)

作者簡介

劉魯川,南方科技大學商學院金融系教授。中國運籌學會博弈論分會理事。曾先後為香港城市大學商學院經濟和金融學助理教授和客座教授。也曾就職於華爾街高盛集團,曾為高盛亞洲風險主管和香港期貨交易所高盛公司代表。美國紐約州立大學經濟學博士,北京理工大學物理學理學學士。目前主要研究興趣:博弈論、人工智慧與金融科技。

特 別 提 示

1. 進入『返樸』微信公眾號底部菜單「精品專欄「,可查閱不同主題系列科普文章。

2. 『返樸』開通了按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如「1903」,可獲取2019年3月的文章索引,以此類推。

《返樸》,科學家領航的好科普。國際著名物理學家文小剛與生物學家顏寧共同出任總編輯,與數十位不同領域一流學者組成的編委會一起,與你共同求索。關注《返樸》(微信號:fanpu2019)參與更多討論。二次轉載或合作請聯繫[email protected]

文章來源: https://twgreatdaily.com/zh-hk/19xNTm0BJleJMoPM6l-4.html