最近我們被客戶要求撰寫關於重慶市經濟指標的研究報告,包括一些圖形和統計輸出。
建立重慶市經濟指標發展體系,以重慶市一小時經濟圈作為樣本,運用因子分析方法進行實證分析,在借鑑了相關評價理論和評價方法的基礎上,本文提取出經濟規模、人均發展水平、經濟發展潛力、3個主因子,從重慶市統計年鑑選取8個指標構成的指標體係數據對重慶市38個區縣經濟發展基本情況的八項指標進行分析,並基於主因子得分矩陣對重慶市38個區縣進行聚類分析
結果表明:根據綜合得分,可以看出各區縣社會經濟發展水平排前三的是渝中區、渝北區、九龍坡區,得分最低的三個是巫山縣、巫溪縣、城口縣,結合總體的分析可以看出渝中區、九龍坡區在經濟總體規模和建築業方面較好,而重慶周邊的地區經濟實力較差,投資環境不好,特別是在建築方面的缺乏,以至於經濟發展相對而言薄弱的地區,不論從哪方面來說重慶各區縣中渝中區的經濟實力是最好的。
評價地區的之間的經濟發展水平,必須建立適當的指標體系。考慮到地區經濟指標的複雜性、多樣性和可操作性,本文在此基礎上建立了一套較為完整的易於定量分析的地區經濟評價指標體系,分別從不同的角度反映地區經濟發展特徵。
本文所建立的指標體系共包括8個指標,分別從經濟規模、人均發展水平、經濟發展潛力等方面來反映地區經濟發展特徵。具體指標如下:
地區生產總值(萬元)(X1)
社會消費品零售總額(萬元)(X2)
工業總產值(萬元)(X3)
建築業總產值(萬元)(X4)
高技術生產總值(萬元)(X5)
全社會固定資產投資(萬元)(X6)
人均可支配收入(元)(X7)
人均地區生產總值(元)(X8)
因子分析模型及其步驟
因子分析是一種數據簡化的技術。它通過研究眾多變量之間的內部依賴關係,探求觀測數據中的基本結構,並用少數幾個假想變量來表示其基本的數據結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。設p個變量,則因子分析的數學模型可表示為:
稱為公共因子,是不可觀測的變量,他們的係數稱為因子載荷。是特殊因子,是不能被前m個公共因子包含的部分。因子分析步驟如下:
(1)將原始數據標準化,仍記為X;(2)建立相關係數矩陣R;(3)解特徵方程,計算特徵值和特徵向量,當累計貢獻率不低於85%時,提取k個主成分代替原來的m個指標,計算因子載荷矩陣A;(4)對A進行最大正交旋轉交換;(5)對主因子進行命名和解釋。如需進行排序,則計算各個主因子的得分,以貢獻率為權重,對加權計算綜合因子得分。
本文選取了重慶市38個區縣作為樣本進行分析,目的在於探索如何基於R統計軟體的因子分析和聚類分析方法研究地區經濟發展。具體數據如下:
將原始數據錄入R軟體中,選取地區生產總值(萬元)(X1)、社會消費品零售總額(萬元)(X2)、工業總產值(萬元)(X3)、建築業總產值(萬元)(X4)、高技術生產總值(萬元)(X5)、全社會固定資產投資(萬元)(X6)、人均可支配收入(元)(X7)、人均地區生產總值(元)(X8)。
在進行因子分析之前,我們通過觀察相關係數矩陣,並用KMO and Bartlett’s Test檢驗一下數據是否適合作因子分析。再做描述性分析Analysis-factor-description得到初始公因子方差、因子、特徵值以及由每個因子解釋的百分比和累計百分比。分析結果如下:
coebaltt(COR,)#Bartlett球形檢
Bartlett 的球形度檢驗的p值(顯著性機率值sig)<0.05,表明通過檢驗,分布可以近似為正態分布,由此則可以進行因子分析。
sreeot(PCA,type="lines")
點擊標題查閱往期內容
數據分享|R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
左右滑動查看更多
01
02
03
04
從表可以得出,提取3個因子的累計方差貢獻率已經達到89.854%>86%,信息損失僅為10.146%,從第4個因子開始方差貢獻率都低於5%,因此選取3個公因子進行因子分析效果較為理想;從圖的碎石圖可以看出從第4個因子開始,特徵值差異變化很小,綜上所述:在特徵值大於0.5的條件下,所提取的三個因子能通過檢驗並能很好的描述8個指標,所以提取前3個特徵值建立因子載荷矩陣。
表中為初始因子載荷矩陣表, F1、F2、F3分別作為第一、第二、第三公共因子。建立了因子分析數學目的不僅僅要找出公共因子以及對變量進行分組,更重要的要知道每個公共因子的意義,以便進行進一步的分析,如果每個公共因子的含義不清,則不便於進行實際背景的解釋。由於因子載荷陣是不唯一的,所以應該對因子載荷陣進行旋轉。目的是使因子載荷陣的結構簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉法。四次方最大法、方差最大法和等量最大法。
因此需求進行因子旋轉,使得因子對變量的貢獻達到極化的效果。為此採用方差最大化的正交旋轉方式,使各變量在某個因子上產生較高載荷,而其餘因子上載荷較小,從而得到旋轉後的因子載荷矩陣,如下表所示:
由表和旋轉後的因子圖可以看出,通過旋轉後的公共因子的解釋原始數據的能力提高了,表現為公共因子F1在X1(地區生產總值),X6(全社會固定資產投資)和X8(人均地區生產總值)上的載荷值都很大。因此我們可以把第一公共因子確立為綜合經濟實力因子,宏觀上反映了地區經濟發展規模的總體情況,在這個因子上的得分越高,說明城市經濟發展的總體情況越好。
利用各公共因子方差貢獻率計算綜合得分,並計算綜合得分=因子1的方差貢獻率因子1的得分+因子2的方差貢獻率因子2的得分+因子3的方差貢獻率*因子3的得分。將數據按綜合得分降序排列,得到部分因子得分和綜合得分情況如下圖所示:
結果討論
基於上述因子得分,可以得出2012年重慶38個區縣的經濟發展狀況如下:
1、根據經濟實力因子F1得分大於1的依次有渝中區、渝北區、九龍坡區、江北區和萬州區,分數分別為4.4211、1.8967、1.7808、1.201、1.2804。說明在經濟總體規模和建築業方面,渝中區、渝北區、九龍坡、江北區和萬州區在重慶市的38個區縣中是最好的,規模較大,經濟實力最強,發展前景很好,經濟發展實力雄厚的地區。
2、根據經濟發展潛力因子F2得分大於1的有沙坪壩區和渝北區,分數分別為3.7052、3.4396。說明在高技術科技和工業方面比較發達,固定資產投資最大,這兩個地區都在主城,對外開放程度高,科技創新方面比較好,有自己的工業發展,已基本形成了自己的產業結構,充分發揮了自己的地理優勢和資源環境優勢,發展潛力較大。
系統聚類分析
聚類分析又稱群分析,就是將數據分組成為多個類。在同一個類內對象之間具有較高的相似度,不同類之間的對象差別較大。在社會經濟領域中存在著大量分類問題,比如若對某些大城市的物價指數進行考察,而物價指數很多,有農用生產物價指數、服務項目價指數、食品消費物價指數、建材零售價格指數等等。由於要考察的物價指數很多,通常先對這些物價指數進行分類。總之,需要分類的問題很多,因此聚類分析這個有用的工具越來越受到人們的重視,它在許多領域中都得到了廣泛的應用。
聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論聚類法、聚類預報法等;最常用最成功的聚類分析為系統聚類法,系統聚類法的基本思想為先將n個樣品各自看成一類,然後規定樣品之間的「距離」和類與類之間的距離。選擇距離最近的兩類合併成一個新類,計算新類和其他類(各當前類)的距離,再將距離最近的兩類合併。這樣,每次合併減少一類,直至所有的樣品都歸成一類為止。
系統聚類法的基本步驟:
1、計算n個樣品兩兩間的距離。
2、構造n個類,每個類只包含一個樣品。
3、合併距離最近的兩類為一新類。
4、計算新類與各當前類的距離。
5、重複步驟3、4,合併距離最近的兩類為新類,直到所有的類並為一類為止。
6、畫聚類譜系圖。
7、決定類的個數和類。
系統聚類方法:1、最短距離法;2、最長距離法;3、中間距離法;4、重心法;5、類平均法;6、離差平方和法(Ward法)。
基於主因子得分對重慶市38個區縣經濟發展分析,採用聚類方法選擇組間連結法,計算距離選擇平方歐式距離,標準化數據才用標準正太數據化處理。得到如下結果:
rct.st(hc,k = 6, border = "red")
由樹狀圖可知,可以將重慶各區縣按經濟中和實力實際情況分為六類:
第一類只包括渝中區,渝中區是重慶市的中心城市,是重慶市的政治經濟文化中心、基礎教育高地、具有特殊的區位優勢和突出的戰略地位。產業結構的現狀特徵是第三產業占絕對優勢,其中金融業、商貿業以及中介服務業為主導行業,屬於經濟發展實力雄厚的地區。
第二類只包括渝北區,渝北區先後啟動了總體規劃近65平方公里的重慶科技產業園、重慶現代農業園區、渝東開發區等項目,被市政府命名為"重慶農業科技園區",所以該地區在高技術生產總值貢獻很大,而且投資環境優越,且大部分地區有個自己中心商業地帶,對外開放程度高,區位優勢很明顯,產業結構合理,屬於經濟發展較強的地區。
點擊文末 「閱讀原文」
獲取全文完整資料。
本文選自《R語言主成分PCA、因子分析、聚類對地區經濟研究分析重慶市經濟指標》。
點擊標題查閱往期內容
數據分享|R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
R語言邏輯回歸logistic模型分析泰坦尼克titanic數據集預測生還情況R語言是否對二分連續變量執行邏輯回歸
R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據
R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析
R語言基於Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言邏輯回歸(Logistic回歸)模型分類預測病人冠心病風險
R語言用局部加權回歸(Lowess)對logistic邏輯回歸診斷和殘差分析R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化
R語言用線性模型進行臭氧預測:加權泊松回歸,普通最小二乘,加權負二項式模型,多重插補缺失值R語言Bootstrap的嶺回歸和自適應LASSO回歸可視化
R語言中回歸和分類模型選擇的性能指標
R語言多元時間序列滾動預測:ARIMA、回歸、ARIMAX模型分析
R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據
R語言計量經濟學:虛擬變量(啞變量)在線性回歸模型中的應用
R語言 線性混合效應模型實戰案例
R語言混合效應邏輯回歸(mixed effects logistic)模型分析肺癌數據
R語言如何用潛類別混合效應模型(LCMM)分析抑鬱症狀
R語言基於copula的貝葉斯分層混合模型的診斷準確性研究
R語言建立和可視化混合效應模型mixed effect model
R語言LME4混合效應模型研究教師的受歡迎程度
R語言 線性混合效應模型實戰案例
R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語言基於copula的貝葉斯分層混合模型的診斷準確性研究
R語言如何解決線性混合模型中畸形擬合(Singular fit)的問題
基於R語言的lmer混合線性回歸模型
R語言用WinBUGS 軟體對學術能力測驗建立層次(分層)貝葉斯模型
R語言分層線性模型案例
R語言用WinBUGS 軟體對學術能力測驗(SAT)建立分層模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
R語言用WinBUGS 軟體對學術能力測驗建立層次(分層)貝葉斯模型
SPSS中的多層(等級)線性模型Multilevel linear models研究整容手術數據
用SPSS估計HLM多層(層次)線性模型模型R語言高維數據的主成分pca、 t-SNE算法降維與可視化分析案例報告
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
R語言有RStan的多維驗證性因子分析(CFA)
主成分分析(PCA)原理及R語言實現及分析實例
R語言無監督學習:PCA主成分分析可視化
R語言使用Metropolis- Hasting抽樣算法進行邏輯回歸
R語言多元Logistic邏輯回歸 應用案例
R語言自適應LASSO 多項式回歸、二元邏輯回歸和嶺回歸應用分析
R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測
R語言基於樹的方法:決策樹,隨機森林,Bagging,增強樹
spss modeler用決策樹神經網絡預測ST的股票
R語言中自編基尼係數的CART回歸決策樹的實現
python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者
matlab使用分位數隨機森林(QRF)回歸樹檢測異常值
基於隨機森林、svm、CNN機器學習的風控欺詐識別模型
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
R語言用標準最小二乘OLS,廣義相加模型GAM ,樣條函數進行邏輯回歸LOGISTIC分