12個場景應用，百餘種算法，AI是如何攻占經濟學的？

作者 | 蔣寶尚

編輯 | 叢末

2020年2月7日，在第34屆美國人工智慧協會年會AAAI 2020現場，深度學習三巨頭齊聚，「計算機視覺」與「機器學習」分座兩旁，對最佳論文虎視眈眈。

最終清華大學與南洋理工大學的一篇「混合可分割和不可分割商品的公平劃分」文章獲得最佳學生論文獎。

論文地址：https://arxiv.org/pdf/1911.07048.pdf

這時候人們猛然驚醒，原來，深度學習已經在博弈論和經濟學領域布局已久，從論文錄取率來看，每三篇錄取一篇的錄取率已經占據了榜首。

這在老牌經濟學家眼裡似乎不可思議，畢竟經濟學研究的重心不在預測方面，而是對於經濟現象的解釋，經濟運作規律的揭示。

具象一些，深度學習的黑盒性質無法有效地解釋優化好的參數，無法說明參數對經濟規律具體作用機制。

但是，AI經濟學家運用深度學習也有別樣的魅力。

強化學習之於稅收設計

兩級學習框架

史丹福大學副教授 Richard Socher 開發了一個包含智能體（工人）和稅收政策（政府）的兩級強化學習框架，用原生態的經濟環境來設計稅收政策。

在動態模擬的世界中只設置了兩種資源：木材和石材，並假設資源再生的速度有限。工人通過在世界裡隨機遊走收集資源並通過買賣或者蓋房子賺錢。錢可以帶來效用（滿足程度），蓋房子付出勞動會降低效用。

另外，給予工人技能不同勞動效率不同的假設，工人賺的錢需要繳稅，系統所得稅收在所有工人之間平均分配。

平均分配的機制對工人戰略眼光進行了要求。當模擬世界中的工人以效用最大化為目標時，整個系統出現了這種狀況：低技能的工人自收集和銷售，高技能的工人買材料和建築。

這種狀況在經濟學中的術語是「分工專業化」，此舉能夠最大化系統的效用。

在整個模型運行的過程中，用強化學習的最佳稅收設計作為獎勵模式。政策制定者可以設置稅率影響工人稅後收入水平，工人通過買賣資源和蓋房子獲得金錢（效用），強化學習獎勵目標是：整體系統效用最大化。

有了這個獎勵目標，工人和政策制定者的行動對整個系統帶來了內部循環和外部循環兩個挑戰。

在內部循環中，工人在勞動、掙錢、納稅之中不斷調整自己的行為，如果這時候給定其一個固定的稅率，那麼問題就變成具有固定獎勵函數的標準多智能體強化學習問題。

在外部循環中，稅收政策的調整是為了優化社會目標。這就形成了一個非靜態的學習環境，在這個環境中，強化學習中的智能體需要不斷地適應不斷變化的效用環境。

最後，作者發現通過使用學習稅率表（類似美國所得稅的徵稅方式）和熵正則化等技術，可以找到穩定的收斂點。 實驗結果表明，通過強化學習的AI經濟學家能在提高47%的平等性的同時，只降低11%的生產率。

在虛擬世界中模擬現實經濟狀況，想法設計更好的制度只是AI和經濟學結合方式之一。 其實深度強化學習在面臨風險參數和不確定性不斷增加的現實經濟問題時，也可以提供更好的性能和更高的精度。

深度學習在經濟學中的應用

論文下載：https://arxiv.org/ftp/arxiv/papers/2004/2004.01509.pdf

在論文《經濟學中的強化學習》（Comprehensive Review of Deep Reinforcement Learning Methods and Applications in Economics）中，德勒斯登理工大學和牛津布魯克斯大學的研究員們細數了強化學習在經濟學中的表現。

通過對股票定價、拍賣機制、宏觀經濟等12個領域的調查，發現深度學習算法比傳統的經濟、統計學算法在精確度和穩健性發現要更加優秀。

1、深度學習下的股票定價

股票價格有著極強的不確定性和風險性，如果能有模型攻克股價預測，無疑會給模型建造者帶來巨額收益。關於用深度學習預測股價的最新進展如下表所示。

情緒對股價走勢無疑非常重要，當前的大多數研究依賴於低效的情緒數據集，這往往會導致模型性能不佳，[68]提出的兩流門控循環單元發現比LSTM模型性能更佳。另外他們提出了Stock2Vec嵌入模型，並在使用哈佛IV-4的同時，對模型的穩健性進行了市場風險的證明。

[69]提出了一項聚光燈下的深度學習技術（spotlighted deep learning ）應用於股價預測，主要創新點是濾波技術賦予了深度學習模型新穎的輸入特徵。

[70]在分析股票價格模式的同時，利用深度學習技術對股票價值流進行了預測，具體是利用時間序列技術設計了一種DNN深度學習算法來尋找模式，雖然準確度有86%。但是，DNN存在擬合過度、複雜度高等缺點，因此建議使用CNN和RNN。

[71]的研究中，採用了一種新的多層深度學習方法，利用時間序列的概念來表示數據，從而能夠預測當前股票的收盤價。

2、深度學習下的保險業

保險業現在面臨的問題是，如何有效地管理欺詐檢測。相應的，機器學習技術針對此問題，逐漸開發了測量所有類型風險的算法。

[76]等人採用LDA和DNNs技術相結合的方式提取事故的文本特徵，發現其性能優於傳統的方法。另外，為了考慮LDA對預測過程的影響，他們還在「有LDA」和「無LDA」兩種情況下，通過準確度和精確度性能因子對結果進行評估。

[77]等人提出了一種結合自動編碼技術和遠程信息處理數據值的算法來預測與保險客戶相關的風險。

3、深度學習下的拍賣機制

拍賣機制的核心是：投標人需要規劃出最大化利潤的最優策略。最新的研究成果如下表所示：

[83]等人在預算約束和貝葉斯兼容性方面對[82]（增廣拉格朗日法）中的結果進行了擴展。他們的方法證明了神經網絡能夠通過關注不同估值分布的多重設置問題，有效地設計出新穎的最優收益拍賣。

[84]等人採用了數據為導向的方法。具體方法：假定可以對每個投標者應用多個投標的前提下利用策略專業知識。

[85]等人是使用多層神經網絡技術構建了一種有效的拍賣機制，並應用於移動區塊鏈網絡。

[86]設計了一種多投標人的兼容拍賣機制，具體通過應用多層神經網絡對其機制進行編碼，從而最大化了利潤。與基於線性規劃的方法相比，採用增廣拉格朗日技術的方法能夠解決更複雜的任務。

4、深度學習下的銀行和在線市場

在網上購物和信用卡場景中對欺詐檢測要求非常高，當前強化學習最先進的研究成果如下表所示：

[90]應用基礎實驗證實了AE（自動編碼）和RBM（玻爾茲曼機）方法能夠在海量數據集下準確地檢測信用卡的風險。但是深度學習在建立模型時需要利用影響其結果的不同參數。

[87]提出的研究設計了一種自動編碼器算法，建立的高效自動化工具可以處理世界各地日常交易。該模型使研究人員可以在不需要使用欠抽樣等數據平衡方法的情況下，給出關於不平衡數據集的報告。

[89]設計了一個使用自然語言處理(NLP)技術的新框架，能夠形成與各種數據源（如新聞和推文）相關聯的複雜機制，從而有效檢測洗錢活動。

5、深度學習下的宏觀經濟

宏觀經濟最重要的問題是指標預測，包括失業率、GDP增長速率等。採用神經網絡的方法，最新的研究成果如下圖所示：

[92]提出了一種高魯棒性模型——編碼器-解碼器模型，利用深度神經架構提高失業問題預測精度，並且精度要求很低。另外，在此基礎上，其還採用平均絕對誤差（MAE）值來評估結果。

Haider 和 Hanif [93]構建神經網絡預測通貨膨脹，其結果由均方根（RMSE）值來評估。

[94]使用前饋神經網絡進行戰術性資產配置，同時應用宏觀經濟指標和價量趨勢。他們提出了兩種不同的方法來構建投資組合，第一種方法用於估計預期收益和不確定性，第二種方法直接利用神經網絡結構獲得配置，並對投資組進行優化。

6、金融市場中的深度學習

在金融市場中，有效處理信貸風險至關重要。由於最近大數據技術的進步，深度學習模型可以設計出可靠的金融模型來預測銀行系統的信用風險，最新研究如下表：

[95]使用二進位分類技術給出了選定的機器學習和深度學習模型的基本特徵。此外，考慮到貸款定價過程中的關鍵特徵和算法，此研究分別使用這兩個模型對貸款違約機率進行了預測。

[96]研究的方法可以幫助金融機構以較少的工作量進行信用評估，同時能夠提高信用評分和客戶評級方面的分類準確性。另外，還對線性SVM，CART，k-NN，樸素貝葉斯，MLP和RF技術的精確度進行了比較。

[97]通過自動編碼、校準、驗證等過程構建了一個資產組合算法，可以應用於包括看跌期權和看漲期權在內的具有標的股票的投資組合。

[98]建立了抵押貸款風險的深度學習模型，能夠處理龐大的數據集。實驗結果發現：受當地經濟狀況影響的變量與債務人行為之間具有非線性關係。例如，失業變量在抵押貸款風險中占有相當大的比重。

7、深度學習下的投資

財務問題通常需要對多個來源的數據集進行分析。因此，構建一個可靠的模型來處理數據中的異常值和特徵非常重要。最新研究成果如下圖：

[99]設計的模型具有提取非線性數據模式的能力。他們使用LSTM、自動編碼和智能索引等神經網絡體系結構來估計證券投資組合的風險。

[100]利用DNN結構對期權定價問題進行了研究，以相當高的精度重構了著名的BLACK-SCHOLES期權定價模型計算公式。

[101]結合交易複雜性研究了期權定價問題，其研究目標是探索高頻交易方式下的有效投資策略。其中，LSTM-SVR模型應用於最終交易的預測。

[102]提出了一種新的學習遺傳算法，該算法利用R-NN模型來模擬人類的行為。具體採用了複雜的深度學習結構，包括：強化學習用於快速決策，深度學習用於構建股票身份，聚類用於整體決策目的，遺傳用於轉移目的。

[103]通過超參數的多樣化選擇使模型更加準確。實驗結果表明，該模型可以在誤差較小的情況下對期權進行定價。

8、深度學習和零售

零售用的最多的是增強現實（AR），此項技術能夠改善客戶的購買體驗。最新研究成果如下所示：

[104]在一項研究中將深度學習技術和增強現實方法相結合，以便為客戶提供豐富的信息。他們還提出了一個移動應用程式，使其能夠通過深度學習中的圖像分類技術來定位客戶。

[105]設計了一種新的DNN來準確預測未來的銷售，該模型使用了一組完全不同的變量，如產品的物理規格和專家的想法。

[106]等人用CNN回歸模型來解決評估商店可用人數和檢測關鍵點的計數這兩個問題。

[107]同時採用k-均值算法和k-近鄰算法，將計算出的質心合併到CNN中，以實現有效的分離和自適應。該模型主要用於驗證食品生產日期等相關信息。

9、深度學習下的商業智能

[108]發展了一項涉及元塑性概念（ the concept of meta plasticity）的工作，它具有提高學習機制靈活性的能力，能夠從數據中發現更深層次的有用信息並進行學習。研究的重點是MLP，在利用客戶數據的同時，輸出在BI（商業智能）中的應用。

[109]提出的MLS和SAE相結合的方法可以用來對序列現象中的時間維進行建模，對於異常情況非常有用，也即業務日誌中的異常檢測能力較高。

[31]設計了一種新的多層特徵選擇，它與堆疊式自動編碼器(SAE)交互作用，只檢測數據的關鍵表示。

[110]使用遞歸神經網絡結構以業務流程的方式進行預測，其中RNN的輸入是通過嵌入空間來建立的，在論文中還給出了精度驗證結果和該方法的可行性驗證結果。

強化學習在高維經濟學問題中的應用

前面介紹的是深度學習在經濟學領域的應用。對比傳統的深度學習，深度強化學習能夠有效處理高維問題。所以，在一些包含高維動態數據的經濟學問題上，深度強化學習表現更加優秀。

1、深度強化學習下的股票交易

由於缺乏處理高維問題的能力，傳統強化學習方法不足以找到最佳策略。下面是深度強化學習的最新研究。

[114]使用深度確定性政策梯度(DDPG)算法作為一種替代方案來探索動態股票市場中的最優策略。算法處理較大的動作狀態空間，兼顧了穩定性，消除了樣本相關性，提高了數據利用率。

[115]等人設計了一種新的自適應深度確定性強化學習框架(Adaptive DDPG)，用於在動態複雜的股票市場中發現最優策略。該模型結合了樂觀和悲觀的Deep RL（optimistic and pessimistic Deep RL），既依賴於負的預測誤差，也依賴於正的預測誤差。

[116]為了分析股票決策機制的多種算法，在深度RL中進行了調查研究。他們基於DQN、Double DQN和Dueling DQN三個經典模型的實驗結果表明，其中DQN模型可以獲得更好的投資策略。另外，這項研究還應用實證數據對模型進行了驗證。

[117]專注於使用深度強化學習實現證券交易中的自動振蕩，其中他們使用遞歸卷積神經網絡(RCNN)方法從經濟新聞中預測股票價值。

2、深度強化學習下的投資組合管理

[118]採用了不同的強化學習方法，例如DDPG方法、最近策略優化(PPO)方法和PG方法。這些方法能夠獲得與連續行動空間中的金融投資組合相關的策略。他們結合中國資產市場對模型在不同環境下的表現進行了比較，結果表明PG模型在股票交易中比其他兩種模型更有利。本研究還提出了一種新穎的對抗性訓練方法，能夠提高訓練效率和平均回報。

[119]研究設計了無模型卷積神經網絡(model-less RNN)，其中輸入是來自加密貨幣交易所的歷史資產價格，目的是產生一組投資組合權重。

[15]研究通過充分利用DPG方法來引入獎勵函數，以優化累積收益。模型包含了獨立評估器集成拓撲結構（ Independent Evaluators topology），在權值分擔方面結合了大的神經網絡集。另外，為防止梯度損壞，還採用了投資組合矢量存儲器(Portfolio Vector Memory)。

Yu等人[120]在自動交易的意義上設計了一種新的基於模型的深度強化學習方案，能夠採取行動並做出與全局目標相關的順序決策。該模型體系結構包括注入預測模塊(IPM)、生成性對抗性數據增強模塊(DAM)和行為克隆模塊(BCM)，能夠用於處理設計的回溯測試。

3、深度強化學習下的在線服務

在線服務主要集中於推薦算法，當前的多種推薦方法，如基於內容的協同過濾（collaborative filtering）、因式分解機器（factorization machines）、多臂老虎機等。但是這些方法大多局限於用戶和推薦系統的靜態交互，並且關注的是短期獎勵。

採用深度強化學習方法目前的進展如下：

[121]設計的推薦算法使用了行動者-批評者（actor-critic model）模型，可以在連續的決策過程中顯式地獲取動態交互和長期回報。

[122]重點研究了實時競價(RTB)在與用戶行為和競價策略相關的複雜隨機環境下的付費搜索(SS)拍賣。另外，基於阿里巴巴拍賣平台的線上線下評價的實證結果表明了該方法的有效性。

[123]中提出了一種基於電子商務平台的MDP（馬爾科夫鏈決策過程）框架下的定價算法。由於能夠有效地應對動態的市場環境變化，可以設置與複雜環境相關聯的有效獎勵函數。

[124]使用DQN（ deep Q-network）方案進行在線新聞推薦，能夠同時獲得當前和未來的獎勵。本模型在考慮用戶活躍度的同時，還採用Duling Bandit梯度下降法來提高推薦準確率。

招聘

AI 科技評論希望能夠招聘科技編輯/記者一名

辦公地點：北京/深圳

職務：以參與學術頂會報道、人物專訪為主

工作內容：

1、參加各種人工智慧學術會議，並做會議內容報道；

2、採訪人工智慧領域學者或研發人員；

3、關注學術領域熱點事件，並及時跟蹤報道。

要求：

1、熱愛人工智慧學術研究內容，擅長與學者或企業工程人員打交道；

2、有一定的理工科背景，對人工智慧技術有所了解者更佳；

3、英語能力強（工作內容涉及大量英文資料）；

4、學習能力強，對人工智慧前沿技術有一定的了解，並能夠逐漸形成自己的觀點。

感興趣者，可將簡歷發送到郵箱：[email protected]

12個場景應用，百餘種算法，AI是如何攻占經濟學的？

直播預告 | 明晚七點，相約阿里巴巴ACL 2021分享會（一）

ICCV 2021 DeeperAction挑戰賽

真正實現類人智能！美國工程院院士Jeff Hawkins：創造機器智能之路

Call for Papers丨KDD 2021 預訓練研討會，唐傑教授領銜

618如何避免剁手"X.O"洋酒？這個打假AI說：不怕，我1秒能識別20個！

亞馬遜首席科學家李沐：五年總結

強迫投稿者引用自己論文，IEEE高級會員被終身「禁賽」，網友：這事在國內很常見......

這5個數學猜想最早在30年前提出，如今AI證明它們都錯了

華人首次！清華姚班助理教授張煥晨獲得SIGMOD Jim Gray博士論文獎！

PapersWithCode和arXiv再次合作！可一鍵顯示論文使用的數據集

香港、澳洲三所高校 AI 博士生招生！還有研究助理和實習生等你加入......

ICML剛剛放榜！接收率僅21%為近五年最低，感謝審稿人不「殺」之恩

李飛飛高徒Andrej Karpathy用AI撰寫內心獨白：我的「進化」之路

直播預告 | 視聽感知學習魯棒性初探

香港、美國、新加坡三所高校新一輪 AI 博士生招生！快來一起發頂會論文

2021年Facebook博士生獎研金名單公布！一半獲獎者是華人博士生

摩根大通公布2021年AI研究博士生獎學金名單！獲獎華人博士生占1/3

預告 | 商湯學術公開課-AI畫質專題課程來襲！

網吹錢偉長寫論文「不必參考任何文獻」，但這的確不符合學術規範

重磅！Science &上海交大發布最新「全世界最前沿的125個科學問題」！

圖靈獎得主Jeffrey Ullman ：我是如何入坑計算機科學的？

學NLP的人跑去CV頂會投稿，中了頂會一作，還是一位本科生？

德撲AI大神、AAAI學術新星 Noam Brown：不完美信息多智能體場景下的AI研究

「倒計時1天」香港AI頂會報名開啟！楊強、譚鐵牛等6位院士18位專家，聯袂報告