黑翼資產-鄒倚天:從信號挖掘到模型構建,全流程AI拓寬量化邊界

2023-08-15     量化投資與機器學習

原標題:黑翼資產-鄒倚天:從信號挖掘到模型構建,全流程AI拓寬量化邊界

量化投資與機器學習微信公眾號,是業內垂直於量化投資、對沖基金、Fintech、人工智慧、大數據領域的主流自媒體公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業30W+關注者,曾榮獲AMMA優秀品牌力、優秀洞察力大獎,連續4年被騰訊雲+社區評選為「年度最佳作者」。

量化投資與機器學習公眾號獨家撰寫

2023年世界人工智慧大會,在「Smart Data · Smart Way——數據智能論壇」上,黑翼資產創始人鄒倚天發表了《從信號挖掘到模型構建,全流程AI拓寬量化邊界》的主題演講。

QIML公眾號對演講內容做了精華解讀:

AI技術在量化投資的全流程運用

量化投資經過十幾年的發展,現在已經進入到精耕細作的時代,必須把每個環節打磨的非常細才能做出超額收益,因而大家使用的模型也日漸複雜,對算力要求也越來越高。黑翼是如何在量化投資整體流程中運用AI的,下面的內容給出了解答。

第一步:策略想法構建

主要是基於對市場觀察、學術論文所產生的想法去構建策略。

第二步:因子構建

研究員從各種資料庫或實時數據源去找數據建模,並進行回測驗證想法。

第三步:預測模型

負責預測的相關同事從成千上萬的因子庫中提取特徵,並通過各種模型進行組合,對股票價格進行預測(可以是簡單的線性模型也可以是複雜模型)。

第四步:組合優化

組合優化的流程是緣於對預測的股票不能直接交易,因為實際交易中存在摩擦成本,交易會對市場造成衝擊。

第五步:算法交易

根據要交易的數量進行建模,判斷短期流動性、市場波動率、短期市場價格走勢,找到最好交易的時點,確保交易不會對整個市場造成過大影響。

在這幾個環節裡面,黑翼都用到了AI技術。我們具體看看是如何應用的:

1、數據收集環節

通過NLP技術、大語言模型等對結構化量價數據、文本數據等海量文本進行分析,判斷文本情感等等。

目前許多網站上的財經新聞以及投資者對於某些股票的評論,其中不乏負面/中性/積極的情緒,若通過人工檢索極慢,但通過NLP技術即可在短時間內掃描大量新聞,分析出大眾投資心態,給出情感打分,並對未來股價造成的影響進行分析。

在分析券商研報時,也可以把內容放到模型裡面去做定量的打分,這一點用人工很難區分,但是大語言模型則能夠很好地甄別其中細微的情感變化。

2、因子挖掘環節

AI機器挖掘因子比傳統的人工挖掘因子的方式效率更高,預測精度更高。

比如在對貴州茅台的未來股價進行預測為例,傳統因子可以從宏觀、行業、個股分析得到的不同類型因子,加上新聞輿情的情感分析,以及歷史數據中蘊含的模式與趨勢等結合起來,形成綜合性的選股策略。而AI模型挖掘因子,主要是集中在高頻量價領域,豐富了傳統因子的維度。

我們通過AI算法可以將人工挖掘的整個思考、分析、設計過程進行轉化,變成複雜數學空間中的搜索優化過程,從而可以實現超大規模金融信號的自動挖掘與自動建模。AI的參與,讓我們在挖掘基本面因子和人工量價因子外,還加入了更多高頻量價和另類數據。

AI機器挖掘因子與人工挖掘因子兩者的區別在於,AI可以處理大量非結構化數據,在因子合成和特徵提取上比人工要更具效率。相比傳統的基於規則或指標的選股方法,AI模型可以同時考慮多個因素和指標,以及它們之間的複雜關係,加強了模型整體的穩定性。

將AI挖掘出的因子與人工挖掘出的因子進行優勢互補,提升整個模型的穩定性。這樣不僅僅考慮到公司的基本面和中長期前景,亦能夠考慮到市場的博弈情況。

3、收益預測環節

將各種特徵結合起來,用AI模型對股票進行預測,這也是AI模型利用最多的一個步驟。

對於市場的預測,總的來說其實是一個時序預測的問題,所以我們要在時序上將不同的輸入信息結合,對於不同類型的輸入,會用到不同種類的深度模型。

比如,DNN可以用在因子的組合上,LSTM可以用在時序量價數據上。另外還有一些比較少見的,比如用知識圖譜的方式來學習產業鏈、供應鏈等信息。而且由於金融市場低信噪比這個特點,我們在做模型的時候十分需要避免過擬合的問題,有人說量化投資就是一個暴力挖掘的過程,其實不然,量化投資里需要非常多的人工經驗積累去處理過擬合的問題。

我們以神經網絡算法為例,在預測流程上具體分為三個環節,輸入層,隱藏層和輸出層。首先,在輸入層,我們將歷史數據中的各項指標輸入到神經網絡中。包括量價行情數據、輿情媒體研報等文本信息,還有電商數據、產業鏈等另類數據。

然後,進入隱藏層,會對輸入層的數據進行處理和轉換,提取出更加有用的特徵。隱藏層中的神經元數量和層數可以根據實際情況進行調整。

最後是輸出層,根據隱藏層的輸出,預測未來的股票價格。

4、組合優化環節

在股票組合優化環節,我們也可以把這個問題用強化學習的方法來處理。首先,需要對問題進行建模,強化學習中的環境空間對應著股票交易市場,動作空間對應著投資決策的可選行動集合,例如買入、賣出、持有不動或調整倉位比例等。

強化學習依賴於獎勵函數來評估每個決策的好壞,在股票組合優化中,獎勵函數可以根據實際收益、風險、目標達成情況等來定義,目標是尋找最大化長期收益並控制風險的策略。

然後,我們可以通過使用強化學習算法(如DQN等),從歷史數據中學習最佳的股票組合優化策略。算法將根據當前狀態選擇動作,並通過與環境的交互進行學習和優化,尋找最佳的收益-風險平衡。

5、算法交易環節

對於量化投資來說,最理想的交易是把石頭扔到池塘里產生的波浪越小越好——即,對極短時間內的股價波動和流動性變化做預測,尋找最佳交易時點,儘量減少自身交易對市場的衝擊。

總結

數據、算法、算力作為AI本身的三要素,各自都有著對量化投資的巨大賦能力,數據質量的提升將給AI算法提供源源不斷的優質食料,算力又為海量數據分析和複雜模型的運行提供支撐,三者之間是相輔相成的。

隨著AI技術的持續發展,它將飛速提升各個行業的生產力,也將繼續為量化投資行業帶來新的變革,成為核心的驅動力!

量化投資歸根到底是科學和藝術的結合。

不論我們的模型多麼好,算力多麼強,其背後依靠的還是人才,尤其是大數據分析人才、AI算法人才,所以量化投資行業非常需要這些人才的加入。

資本市場本身是一個博弈的過程,它跟其他領域非常不一樣,我們在fit the market的同時也在make the market

讓我們一起御風而行,探索量化的邊界!

文章來源: https://twgreatdaily.com/07423b3e1e10c87b1c9e48e7878894c1.html