7500名數據科學家在為這家基金效力,它是怎麼做到的?

2020-05-27     造就

原標題:7500名數據科學家在為這家基金效力,它是怎麼做到的?

導語:7500名數據科學家匿名參與一家對沖基金的運營,他們建立起50萬個機器學習模型,為該基金作出了約280億項的預測。

里查德·克拉布(Richard Craib)是一名29歲的南非人,在舊金山運營一家對沖基金。不過,真正運營的人不是他,而是數千名他不認識的數據科學家,以及他們建立起來的人工智慧(AI)系統。

在初創企業Numerai的旗幟下,克拉布和他的團隊建立起一種技術:將基金的交易數據掩蓋起來,然後分享給一大群匿名的數據科學家。

這是一種類似於同態加密的方法——既確保數據科學家看不到公司自營交易的細節;同時又整理出數據,便於數據科學家建立機器學習模型及做出分析。

從理論上講,他們還可以通過機器學習,找到交易證券的更優方式。

「我們把所有的數據都分享出去了。」克拉布說,「但我們把它轉換成抽象形式,拿到數據的人並不知道這些數據的具體含義,但是又能為這些數據構建機器學習模型。」克拉布曾在康奈爾大學學習數學,後赴南非,在那裡的一家資產管理公司工作。

他不知道這些數據科學家是誰,因為他們都是在網上招募的,報酬形式是一種數字貨幣,可以全程保持匿名。「任何人都可以向我們提交預測,如果管用,我們就用比特幣支付報酬。」他說。

總結來說,數據科學家不清楚手裡是什麼數據,克拉布也不清楚這些數據科學家都是誰。

由於大家到手的是加密數據,因此不能將機器學習模型套用到其他數據上——即便是克拉布也不能。但他相信,通過這種「盲人引路,盲人跟從」的方式,他能創造出一種更加優秀的基金。

Numerai的基金從事股票交易已有一年。至於有多成功,他不願透露具體細節,但他表示,這些交易是賺錢的。

越來越多的大型投資者向該公司投入了資金,包括「量化」對沖基金Renaissance Technologies的創始人——該公司就是由數據分析驅動的,並大獲成功。

對沖基金很早就開始探索算法交易了,其中包括Renaissance、Bridgewater Associates等華爾街老牌企業,以及Sentient Technologies和Aidyia等科技初創企業。

但克拉布創造出了一種將算法「眾包」出去的新模式。其他機構也在開展類似項目,包括Two Sigma——另一家紐約的數據驅動型對沖基金。但是,Numerai正在嘗試的東西則要極端得多。

走在最前沿

這聽起來很像矽谷的套路:一家小型初創公司,旨在通過人工智慧、加密、眾包和比特幣等當前熱門的技術概念重塑金融行業,就差一個虛擬現實了。

毫無疑問,Numerai才剛剛起步,就連它的投資者之一、Union Square的合伙人安迪·韋斯曼(Andy Weissman)都稱之為「一場實驗」。

其他企業也在開發類似的技術。從加密數據著手,構建更為通用的機器學習模型。

這其中就包括微軟。通過這種模型,微軟等公司可以更好地保護它們所收集的客戶個人信息。

蘋果也在挺進機器學習領域。艾倫人工智慧研究所(Allen Institute for AI)執行長奧倫·艾茨奧尼(Oren Etzioni)表示,這種方法對蘋果尤其適用。蘋果在保護數據隱私方面的態度很堅決。

追隨這種技術,我們也可以走向克拉布所支持的那種AI眾包。

在為南非的金融公司工作時,克拉布產生了這個想法。他拒絕透露那家公司的名字,但表示,它運營的基金管理著150億美元資產。

在那家公司,他參與構建了一些用於基金運營但並不複雜的機器學習算法。有一次,他的朋友在用神經網絡運行比較複雜的機器學習算法,他想跟朋友分享公司的數據,但公司不允許。

克拉布說:「從那次起,我就開始研究新的數據加密方式,設法和他共享數據,又要防止他竊取數據,拿去創辦自己的對沖基金。」

Numerai由此誕生。克拉布從自己帳上劃出100萬美元,投入該基金。4月,該公司宣布,一個投資人團體向其投資150萬美元,其中包括Renaissance Technologies創始人之一霍華德·摩根(Howard Morgan)。後來,摩根又與Union Square以及First Round Capital一起,參加了Numerai的A輪融資。

當然,Numerai有些非正統。看看它的網站你就明白了:在一則簡短的視頻中,克拉布描述了公司的使命。他戴著黑框眼鏡,身穿銀色的賽車夾克,背景帶著濃濃的《黑客帝國》風格。

韋斯曼說:「看到這些視頻,我們想到的是,『這傢伙想法與眾不同。』」

韋斯曼坦言,這種方式的問題在於,它能否奏效。同態加密的麻煩在於,它會顯著拖慢數據分析速度。

Baffle公司正在建立類似於克拉布所描述的那種加密技術,該公司CEO阿米什·迪瓦蒂亞(Ameesh Divatia)說:「同態加密需要大量的計算時間。

「怎麼才能在業務決策期內運行完畢?」克拉布說,通過一種特殊的加密形式,Numerai已經解決了速度問題,但迪瓦蒂亞警告說,這可能會犧牲數據隱私。

拉斐爾·博斯(Raphael Bost)是麻省理工學院計算機科學與人工智慧實驗室的訪問科學家,曾探索將機器學習應用於加密數據。

據他所述,Numerai使用的可能是類似於微軟提到的一種方法:數據是加密的,但並非密不透風。對於這種方法的使用者,他提醒說,「你得提防算法受到邊信道攻擊。」

「將派對設置成靜音模式」

無論如何,Numerai正在加緊努力。三個月前,約4500名數據科學家建立了約25萬個機器學習模型,為該基金作出了大約70億項預測。

現在,約有7500名數據科學家參與其中,建立了50萬個模型,作出了約280億項預測。就像在數據科學眾包市場Kaggle一樣,數據科學家競相構建最好的模型,以獲取報酬。

Numerai的訣竅之一是以量取勝。通過一種名為「堆疊」或「集成」的統計學和機器學習技術,Numerai將大量算法的精華結合起來,建立起更加強大的整體。

雖然這些數據科學家大多匿名,但也有一小部分實名參與者,包括紐約州布法羅的菲利普·卡利頓(Phillip Culliton)。除了Numerai,他還供職於一家名為Multimodel Research的數據分析公司,該公司接受美國國家科學基金會的資助。

對於Kaggle上的數據科學競賽,他已經有多年的參賽經驗,他認為,相對而言,Numerai更具吸引力。「Kaggle很好,我也喜歡競賽,但通常只有排名靠前的幾名選手才能獲得報酬,而且,只有某些比賽才提供報酬。」他說,「在Numerai,排名前100左右的選手都有獎金,這個範圍是比較大的,而且Numerai的獎金也很豐厚。」

每周都有100名科學家能獲得比特幣,迄今為止,該公司發放的比特幣價值已超過15萬美元。克拉布說,如果Numerai管理的資金額突破10億美元,它將每月向數據科學家支付100萬美元以上的獎金。

卡利頓說,比起非加密數據,加密數據的處理和分析都更加困難,Numerai的另一位常客吉姆·弗萊明(Jim Fleming)所見略同,他參與運營著一家名為Fomoro Group的數據科學諮詢公司。但這可能不成問題。畢竟在機器學習中,分析並得出結論的,是機器,而不是人。

很多時候,即使涉及的是未加密數據,卡利頓也不清楚它們究竟代表什麼,但這並不妨礙他構建相應的機器學習模型。「加密數據就好比將派對設置成靜音模式。」卡利頓說,「你聽不到人們私底下的交談,但對大家彼此間的親密程度,你還是能一目了然。」

若如克拉布所願,這種方式能在龐大的Numerai數據科學家群體中成功推廣,那麼,華爾街也將不得不洗耳恭聽。

文章來源: https://twgreatdaily.com/zh/VM7uVHIBfGB4SiUw4j4M.html