基於A股新聞共現網絡的股票收益分析

2023-04-07     量化投資與機器學習

原標題:基於A股新聞共現網絡的股票收益分析

量化投資與機器學習微信公眾號,是業內垂直於量化投資、對沖基金、Fintech、人工智慧、大數據領域的主流自媒體公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業30W+關注者,曾榮獲AMMA優秀品牌力、優秀洞察力大獎,連續4年被騰訊雲+社區評選為「年度最佳作者」。

研究數據提供:ChinaScope

核心觀點

本文利用新聞數據,以全量公司(上市+非上市)為節點,以共同出現在新聞中為邊,構建了新聞共現網絡,並對其做社群檢測;

新聞共現網絡內,有關聯的股票對比無關聯股票對表現出更強的相關性;社群檢測後,社群內的股票對也比社群外的股票對有更強的相關性,且「社群內」+「共現關係」有助於進一步提高相關性;

上述表現在不同市值板塊內部、行業內部也都成立,能在板塊或行業內部進一步篩選出相關性高的股票,且新聞共現社群與行業分類也存在差異,可以作為新一類股票關聯關係和股票的分類方式。

一、前言

在之前的 《基於 A 股供應鏈網絡的股票收益分析》 中,我們發現利用供應鏈網絡關係和網絡中的社群關係能篩選出相關性更高的股票集,而且篩選效果不受市值、行業的影響,供應鏈網絡社群檢測可以作為一種新的股票分類方式。借鑑供應鏈網絡的分析流程,本文主要對來自新聞數據的新聞共現網絡進行股票間收益分析,探究來自新聞的關聯關係是否也有類似供應鏈關係的表現,帶來增量信息,豐富股票間關聯關係的維度和股票的分類方式。

二、構建新聞共現網絡

2.1 新聞共現網絡構建步驟

新聞共現網絡的數據來源於數庫提供的 SmarTag 新聞分析數據,主要應用的數據表為 SmarTag 數據中的股票標籤表(news_compnay_label 表),標籤表的相關欄位如下表所示,其中公司包含上市公司與非上市公司,新聞數據選取的時間為 2017 年 1 月至 2023 年 3 月。

構建新聞共現網絡步驟如下:

1、首先以每個交易日下午三點為切割時間,把收盤後的新聞算做下一交易日的新聞,將日曆日映射到交易日;

2、剔除相關性不高的新聞,選取所有relevance>0.1的公司新聞;

3、新聞共現基礎網絡:直接將每日公司新聞轉化為新聞共現的形式,每行數據為:日期、共現的公司a、共現的公司b、共現次數,該新聞數據構成了新聞共現的基礎網絡;

4、新聞共現擴展網絡:每日的股票共現情況變動相對比較頻繁且 A 股覆蓋率低,因此在每月末計算共現矩陣過去 90 日的總邊數,即如果公司 a 和公司 b 在過去 90 日中存在新聞共現情況,那麼也將其納入新聞共現網絡中,擴展網絡的覆蓋度更高,股票共現關係也相對更穩定,之後的分析主要基於擴展後的新聞共現網絡。

下面左圖是某一橫截面整個新聞共現網絡的示意圖,右圖近距離展示了單個公司與其餘公司的共現連接情況。本文構建的新聞共現網絡並不局限於上市公司,而是包含了新聞中出現過的全量公司,加入非上市公司的網絡包含的信息更豐富。

2.2 新聞共現網絡的A股覆蓋度

下面分別從節點和邊兩個維度,統計了新聞共現網絡在 201701~202303 這段歷史區間內的圖規模和 A 股覆蓋度情況。對於節點的統計(見下表),平均每日節點數為 2866 家公司,其中 A 股節點約占 27.68%;大盤滬深300 的平均每日覆蓋度最高,有 51.68 %;小盤股中證 1000 的平均每日覆蓋度最低,只有 18.33 %。為了提高覆蓋度,通過每月末滾動過去 90 個交易日的新聞來擴展網絡,擴展後的新聞共現網絡在各市場板塊上的平均覆蓋度都提高到了 98% 以上。

對於邊的統計(見下表),平均每日邊數量為 6249 條,其中雙方都為 A 股的邊約占 12.28%;平均每日,只有 118 條邊的雙方都為滬深 300 成分股,而雙方都為中下盤股的邊數不到 40 條。基於時序滾動擴展後的新聞共現網絡,在 A 股上邊數量增加到了萬級別,在各市場指數上的邊數量也增加到了千級別。

三、新聞共現網絡的社群檢測

3.1 社群檢測結果展示

為了更深入探究新聞共現中公司與公司之間的關係,參照前篇《基於 A 股供應鏈網絡的股票收益分析》,依舊引入基於圖論的社群檢測算法 leiden 算法對新聞共現網絡進行社群檢測(無向圖、帶權重,權重為區間內共現的新聞數量)。

在對新聞共現網絡進行社群檢測時同樣發現整個網絡是由一個大連接組件和許多小連接組件構成的,小連接組件內的公司數量少,但組件間劃分明顯,絕大部分公司都集中在最大連接組件內。以 20221231 為例,下圖展示了社群檢測後小連接組件的連接情況,而最大組件的規模為 72763,遠超小組件的規模,因而不方便在圖中展示。

統計 20221231 的新聞共現網絡初始聚類後的連接組件的規模分布情況(如下圖所示),橫坐標代表集群規模,縱坐標代表該規模下集群的數量,最大組件的規模為 72763,其餘組件的規模均小於 20, 因此,可見公司主要集中在最大組件中,後面只對網絡中的最大組件進行集群檢測,大組件以外的較小的連接組件對研究作用微乎其微。

將最大組件分離出來後,對最大組件應用 leiden 算法進行社群劃分,共劃分成了 257 個集群,各集群規模大小分布如下圖所示,其中橫坐標代表集群的規模範圍(即擁有的公司數量),縱坐標代表該集群規模下集群的數量, 前幾大集群的規模都比較高。

3.2 社群檢測結果分析

下圖統計了歷史區間內最大連接組件包含的公司數以及這些公司在 A 股上的覆蓋度。對各時間截面上的最大連接組件的統計結果求均值,最大連接組件包含了約 88.43% 的公司,約 96.86% 的 A 股都在最大連接組件內,所以仍選擇對最大連接組件進行進一步的社群檢測。(圖中 19 年中後期後公司數量大幅上升,這是因為擴充了新聞源,新聞量大幅增加導致的。)

在各時間截面,對最大連接組件進行集群劃分後的集群規模分布情況如下圖所示。最近幾個月,存在包含 1 萬家公司以上的大社群;其餘時間的最大社群內包含的公司大約為五六千家;絕大多數的社群規模大都在 100 家公司及以下。在所有社群中,包含 A 股的社群數量占比平均在 43.69% 左右。

下圖單獨統計了各時間截面對最大連接組件進行社群檢測後包含 A 股的社群數量及其規模分布情況,平均有 34% 左右的集群中只包含一隻股票(及藍色部分的集群數量在整個柱子上的占比),絕大多數集群內部包含的 A股數量不超過 200 個(褐色柱子及以下)。

3.3 社群檢測與行業分類的差異

新聞共現網絡構建了股票之間在新聞上的關聯關係,對新聞共現網絡進行社群檢測得到的股票分類方式是有別於業務分類(即行業分類體系)、公司間商業關係分類(即基於供應鏈圖譜的社區檢測)的又一種新的分類方式。同樣以中信一級行業分類為比較基準,為了比較新聞共現集群與行業分類的不一致性,下圖計算了各時間截面下中信一級行業內成分與新聞共現集群內成分的平均重疊率。( 集群 i 對行業 j 的重疊率 = 集群 i 內屬於行業 j 的公司數量 / 所有集群內屬於行業 j 的公司數量,然後橫截面對 top50 的集群的重疊率計算求平均;排名靠後的集群涉及的股票數較少,會間接拉低重疊率。)在所有中信一級行業中,銀行的重疊率始終很高,在 57.2% 左右,說明銀行類的上市公司在新聞中普遍會一起出現,而其餘類型的上市公司與銀行一起出現在新聞中的情況相對較少,銀行類上市公司在社區檢測時容易自成一個社群。

下面兩幅圖直觀展示了 202302 這個月的中信一級行業成分股在前 50 個集群內部的分布和占比情況,在規模較大的集群內,行業分布是相對分散,基於新聞共現網絡集群檢測的股票劃分方式有別於行業劃分,能帶來新信息。

四、收益率相關性分析

在之前的供應鏈網絡研究中發現「 存在供應鏈關聯的股票對比無關聯股票對表現出更強的相關性,且供應鏈集群內股票對的相關性最強。」上述規律是否在新聞共現網絡中同樣存在?如若存在,量化研究中用到的股票劃分依據也可以挖掘自新聞數據,豐富了股票間關聯關係的類型。為了驗證上述規律,我們同樣對新聞關係下股票對的日度收益率序列計算 Pearson 相關係數,通過比較相關係數的分布來體現不同關係下股票間的關係強弱,其中計算 t 月末相關係數用的是 (t-90個交易日, t] 區間上的日度收益率,時間區間的劃分與滾動 90 日擴展新聞共現網絡的區間相一致。

4.1 新聞共現網絡的收益率相關性分析

4.1.1 全 A 上表現

下圖對比了各橫截面新聞共現網絡中相關聯和不關聯的股票對之間收益率相關係數的均值、中位數、偏度、峰度等統計指標。(關聯股票對 connected,即為新聞共現網絡中每條邊兩端的節點對;不關聯的股票對 unconnected,即為新聞共現網絡所有 A 股節點兩兩配對後剔除掉前面那部分關聯股票對後剩餘的股票對。)從相關性強弱水平來看(均值、中位數),關聯股票比不關聯股票表現出更強的相關性;從相關性分布形態來看(偏度、峰度),關聯股票的相關性更右偏,且分布更矮,尾部更厚。

下圖挑選了偏度相差最大的時間點 20210730 和最近月份 20230228 橫截面下,關聯股票間相關係數分布和不關聯股票間相關係數分布的差異,從圖形中可以清楚的看出上文描述的那些分布特點。

4.1.2 板塊內表現

為了探究股票市值是否對新聞共現關係有影響,同樣分別在滬深 300、中證 500、中證 1000 板塊內部計算了各時點上關聯股票間和非關聯股票間的收益率相關係數( 對板塊內成分股兩兩配對,並劃分成關聯股票對和非關聯股票對兩部分。),並繪製如下分布圖。可以發現,各板塊內部,也都呈現了「存在新聞共現關聯的股票對比非關聯股票對表現出更強的相關性」的特點,即分布更偏向 Y 軸上側。由此可知,新聞共現網絡上的股票關係並不受市值的影響。

4.1.3 行業內表現

在前文的「社群檢測與行業分類的差異」分析中發現銀行業內成分公司在新聞上的關係是相對統一且與外界相對獨立。那在銀行行業內部,新聞關聯性帶來的增量信息是否會被削弱?下圖繪製了各時點上銀行業內部關聯股票間和非關聯股票間相關係數統計量對比圖,可以發現,2020年後,新聞共現關係對於股票間相關性的增強作用已經基本失效了。

下圖還進一步分析了新聞共現關係在醫藥行業內部的作用,可以發現新聞共現關係對於股票間相關性的增強作用一直都存在,且隨著疫情的爆發,增強作用變得更強了。(從相關係數的偏度來看,關聯股票間的偏度並不總是比非關聯股票更右偏,但在均值和中位數都更高的情況下,關聯股票間的相關係數分布圖仍更位於坐標軸的右側。這個現象可在下文圖中觀察到。)

4.2 社群內外的收益率相關性分析

從上文可知,與供應鏈網絡一致,在新聞共現網絡中,關聯的股票對比無關聯股票對也表現出更強的相關性。更進一步,我們同樣對新聞共現網絡進行社群檢測,將聚類得到的集群作為一種新的股票分類方式。我們仍然通過對比集群內外股票的收益率相關性的差異來評判這種分類方式的有效性。對社群檢測得到的各集群內部的 A 股分別進行兩兩配對,然後將這些股票對求並集,得到集群內的股票對集 within_cluster ;將網絡內所有 A 股進行兩兩配對,剔除上一步的 within_cluster 股票對集,就得到了集群外的股票對集 random;從 within_cluster 中篩選出相連的股票對即為 within_cluster_connected 股票對集 ,分別計算這 3 種股票關係的收益率相關係數。

4.2.1 全 A 上表現

下圖對比了上述 3 種股票關係的收益率相關性的高低水平和分布形態。其中,相關性高低水平排序為:within_cluster_connected>within_cluster>random,集群內股票間比及集群外股票間表現出更高的相關性,而且集群內相連的股票間 within_cluster_connected 的相關性更是高出很多。對於分布形態,不同時間點上的左偏和右偏並不一致,集群內相連的股票間相關性的分布相對更矮更厚尾,結合均值和中位數,集群內股票的相關性分布整體上更位於 X 軸的右側。由此可知,新聞共現網絡有助於篩選出相關性高的股票,而且網絡中社群關係能進一步提高篩選效果(within_cluster_connected 普遍高於上文的 connected)。

下圖挑選繪製了最近 2 個年末這 3 種股票關係的相關係數分布圖,分布形態也與上圖統計的信息相一致。

4.2.2 板塊內表現

下圖同樣在滬深 300、中證 500、中證 1000 不同市值板塊上測試了集群內外 3 種股票關係的相關性表現。板塊內的表現與全 A 的表現是一致的:within_cluster_connected>within_cluster>random,而且在大市值板塊上的表現比小市值板塊上的表現更顯著。

4.2.3 行業內表現

由於銀行業的成分股與集群內的成分股重疊率較高,下圖單獨繪製了各時間點銀行業內成分股的集群劃分表現,可以發現集群劃分並不能帶來更高的相關性,無法從銀行成分股中進一步篩選出相關性更高的股票,這可能是因為銀行業的成分股之間相關性本身就已經很高了,很難找到增量信息來進一步提高相關性。

除了銀行業,下圖同樣查看了新聞共現網絡集群在醫藥行業上的表現。在醫藥行業內部,新聞共現網絡集群是能帶來增量信息進一步篩選出相關性更高的股票的。

五、總結

從上文的分析結果可知,與供應鏈網絡一樣,新聞共現網絡同樣有" 關聯股票對比非關聯股票對表現出更強的相關性,集群內股票對比集群外股票對也表現出更強的相關性"的表現,且整體上不受市值和行業的影響,能帶來新的增量信息。可以將新聞共現網絡也作為一類股票間的關聯關係,將來自於新聞共現網絡的集群也作為一種股票分類方式,應用於投資決策中。

文章來源: https://twgreatdaily.com/7338a1799433947f91bae3e753c6dd56.html