量化投資與機器學習微信公眾號,是業內垂直於量化投資、對沖基金、Fintech、人工智慧、大數據等領域的主流自媒體。公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業30W+關注者,曾榮獲AMMA優秀品牌力、優秀洞察力大獎,連續4年被騰訊雲+社區評選為「年度最佳作者」。
前言
量化策略中超額收益alpha的來源可以簡單分為兩部分(不考慮網下打新):pure alpha+風險風格收益。pure alpha,包括量價因子、基本面因子等,能夠帶來穩定的超額收益;風險風格收益由風險因子貢獻,包括市場因子、市值因子、行業因子、成長因子等,收益的波動性非常大。
選股因子在行業的暴露度過高可能會導致股票過於集中而帶來的極端風險。這會影響選股因子有效性的判斷。
A股行業市值效應明顯,為降低選股因子在行業和市值的暴露度,我們通常會進行市值和行業中性化處理。行業中性化的本質在於使用行業定義來確定股票的相似群組,找到股價共同移動機率較高的股票,最終達到在不同群組中分散化投資的目的。
個股在行業分類上是唯一的,而行業下不同板塊業務產品、盈利模式存在較大區別,並且有相當數量的上市公司存在多元經營的問題,直接硬性通過行業分類劃分相似群組可能較為粗暴,因此本文將探究使用公司主營產品(SAM標準化產品)提純『替換』行業中性化處理的因子表現如何。
數據介紹
SAM產品分項數據記錄了上市公司披露主營產品的收入、利潤及成本,並對其進行標準化處理,匹配數庫的標準產品名稱及代碼,確保上市公司在業務和產品維度上實現高度可比。
下圖展示了產品分項表中恩捷股份2021年度報告中披露的主營數據,product_code是標準化後的產品代碼,最右邊三列分別為產品對應的收入、成本及利潤。
主營產品數據降噪處理
本文主要研究能否通過公司主營產品捕捉股票同質性並用於提純因子以達到控制風險的目的。在利用主營產品數據嘗試提純之前,我們首先給出以下邏輯假設:通過主營產品可以找到股票間的同質性,但是主營產品數據中信息可以分為能夠體現同質性的信息(信號 )與干擾信息(噪音)。當數據中信號的占比越大,其對同質性的解釋能力就越強。因此我們可以認為主營產品數據比行業分類更能夠體現股票間的同質性。在此基礎上如果我們希望利用主營產品更加準確地捕捉同質性並用來提純因子,我們可以先將主營產品數據處理成信噪比更高的指標。
我們首先需要篩選出真正能夠影響公司經營的主要業務,換句話說我們希望找到公司營業收入占比較高或利潤較大的產品,在體現公司多元經營的前提下剔除其他非主營業務產品噪音項。為實現這一目標,我們基於選股中的重要指標—主營業務占比指標衍生出反向計算主營的方法來篩選公司主營產品。
主營業務占比指標是由給定主營業務計算收入後與總收入計算出主營業務占比,而反向計算主營是使用SAM產品分項數據通過給定收入占比及毛利占比等邏輯計算確定主營業務產品。
主營計算部分邏輯介紹(這裡只簡單介紹研究中使用的主要邏輯):
若某產品營收占比>50%且利潤占比>20%確定為主營產品;若某產品利潤占比>70%且營收占比>15%確定為主營產品;若存在另一產品主營占比>30%且毛利占比>50%確定為主營產品等。
通過計算嘗試直接找出產品分項數據中大機率能體現同質性的產品。
以恩捷股份(002812)21Q4產品分項數據為例,通過上述流程計算結果如下:
由此方法計算主營剔除了多餘噪音項,不僅能夠及時捕捉公司經營重心,群組劃分更準確,且標準化後的產品相較於原始披露更易於對標概念板塊。
選股因子信息提純
我們認為因子帶來的alpha包含Pure alpha 與風險風格收益,風險風格收益可以看作是暴露了某一個風格的風險敞口得到的收益,Purealpha 不會受到市場風格的影響,可以認為是因子本身帶來的alpha收益。為獲得Pure alpha我們通常會使用風控模型收緊風險敞口,比如使用主流模型Barra對因子暴露進行約束,本文希望通過利用主營產品減小同質化帶來的風險。
與降噪處理邏輯一致,提純的本質是通過找出因子暴露中大機率是噪音項的部分,通過將其剔除的方式,增加處理後的因子信噪比。這裡的提純採用橫截面回歸取殘差的方式,將確定為主營的產品標記為啞變量1,其餘不屬於主營的產品標記為0,之後進行多元線性回歸擬合。剔除了因子暴露中大機率能被主營產品解釋的部分,剩餘的殘差即是更純化的因子信息。
因子在不同行業中的暴露
因子在主營業務中的暴露
用上面兩張圖來舉例,行業中心化可以分別隔離銀行與其他行業的暴露,但是無法隔離同行業之中銀行對公業務與銀行對私業務的主營業務暴露。
實證分析
選取兩個量價因子(WorldQuant-alpha006、alpha004)分別構建單因子投資組合進行回測,實驗組因子使用SAM主營產品提純,對照組因子進行行業中性化處理,通過對比因子測試結果驗證提純效果。
提純預處理—SAM產品數據降噪處理:
1、數據來源:
SAM產業鏈PIT數據
報告期:2020/12/31,2021/12/31
2、數據分段處理:
因子總體回測時間為2021年5月6日—2023年6月30日
為避免使用未來數據,這裡利用主營產品提純的基本邏輯是:使用已有的最新報告期(本文報告期按年度劃分)的數據計算主營作為當前公司主營產品直至下一報告期數據入庫再次計算主營,例如:使用2021年報Q4披露的產品數據計算的主營用於2022年5月之後的因子提純,以此類推。
3、主營業務計算:
按上文所述反向計算主營算法篩選主營構造啞變量矩陣,若公司主營業務包含某一產品則暴露度為1,否則為0;為體現多元化經營,公司主營產品數量由算法決定,不一定唯一。
因子測試
我們分別對因子做實驗組及對照組處理並構建單因子回測框架,主要包括 IC 分析和分層回測以及模擬測試投資組合表現。為排除異常股票對測試結果的影響,剔除了選股日ST/PT股票及上市不足一年的股票。實驗組及對照組因子均為做過預處理:異常值、標準化處理,市值中性化處理,對照組行業分類為申萬一級行業(2021年6月更新版本)。
測試參數如下:
回測區間:2021 年 5 月至 2023 年6 月
樣本空間:滬深300成分股
分組數量:5 組
因子對應股價數據:避免前視錯誤(look-ahead bias)和計算延遲(delayed calculation),使用下一日開盤價『open』計算前向收益
IC計算方式:Spearman’s rank correlation coefficient
加權方式:等權
測試結果
Alpha006測試結果
不同持倉周期下對照組中性化因子與實驗組提純後因子IC分析結果比對:
通過IC分析結果對比,不論從因子有效性、穩定性還是預測能力來看,SAM提純後的因子效果都顯著優於行業中性化處理的因子。
不同持倉周期下對照組中性化因子收益分析結果
不同持倉周期下實驗組提純後因子收益分析結果
據以上圖表顯示,提純後的因子在各個持倉周期的超額及單調性上的表現依然占優。
對照組(上)與實驗組(sam提純後因子,下)在測試區間(2021 年 05月 06 日至 2023年 06 月 30 日)持倉周期為5天的分層累計收益曲線如下所示:
用Alpha006構建資產組合,模擬業績表現
在之前的報告結果中可以發現實驗組與對照組中分位組1和5的預測性最好,因此這裡使用這兩個分位組模擬構建單因子多空策略組合,持倉期為5天,基準收益按照基準區間頻率(benchmark_period=5d),計算全域平均收益。模擬時未設置交易費用與滑點。
策略表現如下(左側為對照組,右側為實驗組SAM提純後因子)
Top Quantile 純多頭策略累計超額曲線對比
(Alpha006,持倉周期:5d)
藍色陰影面積清晰地顯示出提純後因子超額有顯著提升
Alpha004測試結果
不同持倉周期下對照組中性化因子與實驗組提純後因子IC分析結果比對。左半邊為對照組IC結果,右半邊為實驗組提純後IC結果。
不同持倉周期下對照組中性化因子收益分析結果
不同持倉周期下實驗組提純後因子收益分析結果
用Alpha004構建資產組合,模擬業績表現
在之前的報告結果中可以發現,對照組中分位數組2和4的預測性最好,實驗組中分位組1和5的預測性最好,因此分別使用各組兩個預測性最好的分位組模擬構建單因子多空策略組合,持倉期為40天,基準收益按照基準區間頻率(benchmark_period=40d),計算全域平均收益。模擬時未設置交易費用與滑點。
策略表現如下(左側為對照組,右側為實驗組SAM提純後因子)
Top Quantile 純多頭策略累計超額曲線對比
(Alpha004,持倉周期:40d)
實證結果分析
上文測試結果報告展示了將兩個量價因子作為實驗對象,從因子IC分析、因子收益指標及模擬資產組合交易三個方面驗證對比了行業中性化處理及提純後因子的表現。主要有以下結論:
1、利用SAM主營產品可有效捕捉股票同質性進行信息提純,可用於控制投資組合對於同質性風險暴露,提升量化投資策略收益穩健性。
2、提純後的因子相較於行業中性化後的因子,不僅預測能力與穩定性都得到了顯著的提升,且有效性也有所提升,這說明信息提純進一步挖掘了因子的增量信息,起到了優化因子的作用。
3、 從模擬資產組合交易結果來看,提純後因子在提升了年化收益率的同時也降低了最大回撤,因子在時間序列上的表現更加穩定。報告中夏普比率(sharpe_ratio)和多空卡瑪(calmar_ratio)以及索提諾比率(sortino_ratio)是衡量風險收益比的重要指標代表了風險收益比,這說明提純後因子『性價比』無疑高於中性化後因子。
其他說明:本文僅展示了兩個簡單的量價因子提純後效果表現,未避免偶然性我們對WorldQuantAlpha101中其他量價因子及基本面估值因子(BP,EP)進行提純測試,結果均優於中性化處理。
思考與展望
量化策略具有同質化,隨著市場有效性的提升Pure Alpha這個投資中的『聖杯』越來越難把握。如何剝離同質風險挖掘因子中的特質收益項對量化策略配置意義重大,多元性量化策略配置能有效應對市場變化。SAM產業鏈產品分項數據能夠更細緻地刻畫上市公司經營屬性,從機器學習角度來說其作為特徵解釋度更高,與行業分類相比捕捉同質性更加準確,應用場景廣泛。比如利用SAM數據構造風格因子擴充Barra模型,增強模型解釋力;或者對沖策略應用,比如統計配對策略,做同質公司的價差回復、事件驅動策略等。綜上,SAM數據對於量化策略具有重要研究意義,未來我們也將繼續探索SAM數據在量化策略中的應用。
點擊「閱讀原文」,分別獲取文中原始、市值中心化處理、行業中心化處理,與產業提純處理後的因子值。