機器學習與因子模型實證:怎麼進行模型訓練?

2023-04-26     量化投資與機器學習

原標題:機器學習與因子模型實證:怎麼進行模型訓練?

量化投資與機器學習微信公眾號,是業內垂直於量化投資、對沖基金、Fintech、人工智慧、大數據領域的主流自媒體公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業30W+關注者,曾榮獲AMMA優秀品牌力、優秀洞察力大獎,連續4年被騰訊雲+社區評選為「年度最佳作者」。

標題:Stock Market Anomalies and Machine Learning Across the Globe

作者:Vitor Azevedo、Georg Sebastian Kaiser、Sebastian Muller

前言

股票市場異常是指那些與傳統金融理論不符合的現象,這些現象可能導致投資組合表現出色或者糟糕。機器學習技術可以幫助我們更好地理解這些異常,並提高投資組合的表現。

本文旨在探討機器學習模型在國際股票市場異常預測中的應用。作者使用了來自多個國家的大量數據,並採用多種機器學習算法來構建未來回報預測器。他們還對不同算法和特徵選擇方法進行了比較,並評估了它們在樣本內和樣本外測試中的表現。作者發現:

1、機器學習模型可以有效地預測股票市場異常,尤其是在樣本外測試中表現更好。

2、不同的機器學習算法和特徵選擇方法對預測能力的影響不同。例如,基於樹的算法(如隨機森林和梯度提升樹)通常比線性模型表現更好。

3、在國際股票市場中,不同的異常變量具有不同的預測能力。例如,動量和價值因子在多個國家中表現出色,而流動性因子則在某些國家中表現較差。

4、在構建未來回報預測器時,考慮多個異常變量之間的非線性關係可以提高模型的預測能力。

測試了哪些因子?

本文使用了量價數據、基本面數據及分析師一致預期數據構建了240個因子(異象),這些數據從1980年7月至2019年6月,覆蓋了MSCI主要地區指數的國家(包括以下指數:MSCI North America, Europe, Pacific, Emerging Markets)。經過一系列的處理,最終的數據包括68個國家66000家上市公司的超過9390萬條的月度數據。從下表我們可以看到中國的數據占了總樣本的8.17%。

主要測試了113個基本面因子、75個量價因子、18個分析師因子及19個估值因子和15個其他因子。所有因子的數據都基於截面排序標準化到(0,1)的區間。因子評價主要使用多空組合收益及其顯著性。在構建多空組合時,分別構建了等權組合和市值加權組合。具體因子列表請參考原文。

使用了哪些機器學習的模型?

使用的模型從簡單到複雜主要分為三類:

1、線性回歸模型,GLM(Generalized Linear Model)

2、樹模型,Gradient Boosting Machine(GBM)

3、神經網絡模型,總共有三個,淺層全連接模型(Small Feedforward Neural Network),深層全連接模型(Large Feedforward Neural Network)和RNN。

簡單因子表現怎麼樣?

在所有的240個因子中,有167個因子(約占總體70%)的多空收益顯著(t值大於1.96)。t值大於3.00的因子有132個。基於240個因子的截面排序的均值,本文構建了一個Baseline factor。與所有單個因子組合的平均表現對比,Baseline因子的換手率更高,月度平均的表現也更優。等權Baseline因子的表現也顯著大於市值加權的Baseline因子表現。在接下來的研究中,本文將對比各模型於Baseline因子的表現。

機器學習模型表現怎麼樣?

基準機器學習模型表現

針對6個不同的模型,分別針對原始的收益和收益排序進行了訓練。下表A是使用收益率作為訓練目標的模型表現,下表B是使用收益排序作為訓練目標的模型表現。可以看出:

1、所有基於收益率訓練的6個模型的表現都優於Baseline因子,而且3個神經網絡模型的表現優於其他的樹模型和回歸模型,其中表現最好的是Small FNN。

2、所有基於收益排序訓練的6個模型的表現也優於Baseline因子,而且表現最好的也是神經網絡模型,最優的是Large FNN。

3、整體而言,機器學習模型的表現要優於Baseline因子,而且在使用神經網絡模型時,基於收益排序預測的模型的效果要優於基於收益率預測的模型。

調整後的機器學習模型表現

基於預測的目標、窗口滑動的方式、使用的因子集可以構建出多種模型:

1、預測目標可以分為:收益率、收益率的截面排序

2、窗口滑動方式可以分為:不滑動、10年滑動、擴展(即起始點不變)

3、因子選擇可以分為:使用Lasso、Elastic Net選取因子,使用固定t值過濾

下表給出了所有可能性組合的測試結果,所有模型表現均優於Baseline因子,其中表現最好的是Small FNN。

把所有模型按照不同的訓練方式計算平均的效果,如下表所示,可以看出,基於截面排序的模型效果要優於基於基於原始收益率的預測模型;基於Lasso選則因子的模型表現更優。

即使是同一個模型,當選擇不同的訓練方式的時候都會帶來很大的改變,如下圖所示,對於GLM模型,當使用擴展窗口、基於收益排序和elastic net選擇的因子集進行訓練時,該模型的表現能夠提升1.56%。

總結

機器學習模型確實能夠顯著提高傳統因子的表現,但在具體實施過程中存在很多不同的選擇,如訓練的目標,窗口的滾動及因子的選擇。本文給了我們一個非常詳細的對比,很多結果也於我們直觀的認知保持一致,為我們在具體應用機器學習模型提供的借鑑。

文章來源: https://twgreatdaily.com/64dc2fc2bf188c5e023de217793bb4a9.html