SPSS用K均值聚類KMEANS、決策樹、邏輯回歸和T檢驗研究通勤出行|附代碼數據

2023-04-28     tecdat拓端

原文下載連結:http://tecdat.cn/?p=27587

最近我們被客戶要求撰寫關於通勤出行的研究報告,包括一些圖形和統計輸出。

某交通工程專業博士生想要研究不同因素對通勤交通方式選擇的影響,對成都兩個大型小區(高端和普通)居民分別進行了出行調查,各調查了300人

其中

Distance:居住地離上班地的距離(公里)

Pincome:個人年收入(萬元)

Hincome:家庭年收入(萬元)

Age:年齡

Gender:性別(0:女;1:男)

Car:家庭擁有汽車的數量

Education:教育水平(1:初中及以下;2:高中;3:專科;4:本科;5:研究生)

Job:工作類型(1:公司職員;2:工廠工人;3:公務員;4:個體;5:事業單位;6:其他)

People:家裡人口數量

Children:家裡未成年人數量

Housing:房屋擁有類型(0:租房;1:買房)

Area:房屋居住面積(平方米)

Mode:主要通勤出行方式(1:汽車;2:公共運輸;3:電動自行車;4:其他)

但是小區的編號忘記記錄下來。

任務:

  1. 判斷每個變量時數值型變量還是分類型變量,數組型的計算其均值和方差,分類型的列出每類的頻率。

數值型變量為:

Distance:居住地離上班地的距離(公里)

Pincome:個人年收入(萬元)

Hincome:家庭年收入(萬元)

Age:年齡

Car:家庭擁有汽車的數量

People:家裡人口數量

Children:家裡未成年人數量

Area:房屋居住面積(平方米)

點擊標題查閱往期內容

R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析

左右滑動查看更多

01

02

03

04

分類型變量為:

Gender:性別(0:女;1:男)

Education:教育水平(1:初中及以下;2:高中;3:專科;4:本科;5:研究生)

Job:工作類型(1:公司職員;2:工廠工人;3:公務員;4:個體;5:事業單位;6:其他)

Housing:房屋擁有類型(0:租房;1:買房)

Mode:主要通勤出行方式(1:汽車;2:公共運輸;3:電動自行車;4:其他)

分類型變量為:

Gender:性別(0:女;1:男)

Education:教育水平(1:初中及以下;2:高中;3:專科;4:本科;5:研究生)

Job:工作類型(1:公司職員;2:工廠工人;3:公務員;4:個體;5:事業單位;6:其他)

Housing:房屋擁有類型(0:租房;1:買房)

Mode:主要通勤出行方式(1:汽車;2:公共運輸;3:電動自行車;4:其他)

  1. 判斷每個受訪者所在的小區。

根據居住地距離 ,我們使用kmean聚類將樣本分成2個類別,並保存結果到小區變量中。

結果如圖所示。

聚類中心結果如下

每個樣本的聚類信息:

  1. 分析不同小區居民的平均出行距離、平均家庭收入、年齡分布、性別分布、家庭人口數和受教育程度有什麼區別嗎?

從均值比較的結果來來看,第1個類別的工作里小區工作距離較短,第三個類別年齡較小,第一個小區家庭人口較大,教育水平第四個小區較低。

然後對不同聚類類別的數據進行獨立樣本t檢驗。

由上表中的結果:distance的sig>0.05,可知:distance無顯著區別。

  1. 對每個小區分別建模(邏輯回歸和決策樹),看哪個模型對出行方式選擇的擬合更好(比較模型在檢驗樣本里的表現,而不是訓練樣本),並分析各個變量如何影響通勤交通方式的選擇。

首先對1區的樣本進行決策樹模型

可以看到距離 收入、家庭人口數和性別對出行方式有較大的影響,男性出行以電動車為主,女性也有一部分以公交出行為主,從家庭人口數來看,大於2人的家庭出行以公交車為主。

然後使用邏輯回歸進行預測

由結果來看整個邏輯回歸的表達式是顯著的;由「似然比檢驗」表格可知所有變量的顯著性水平均小於0.05,可知自變量對於因變量mode都是顯著的;而在參數估計中可得,自變量的顯著性水平較低,即這些變量和mode是有關係的。

對2區出行數據進行決策樹模型分析

從結果來看,決策樹分類模型可以看到區2的出行方式主要受到距離的影響。若距離較大,則出行方式以汽車和電瓶車為主,若距離較小,則以公交車為主。

對區2的出行數據進行邏輯回歸

由結果來看整個邏輯回歸的表達式是顯著的;由「似然比檢驗」表格可知所有變量的顯著性水平均小於0.05,可知自變量對於因變量mode都是顯著的;而在參數估計中可得,自變量的顯著性水平較低,即這些變量和mode是有關係的。

點擊文末 「閱讀原文」

獲取全文完整資料。

本文選自《SPSS用K均值聚類KMEANS、決策樹、邏輯回歸和T檢驗研究不同因素對通勤出行交通方式選擇的影響調查數據分析》。

點擊標題查閱往期內容

數據分享|R語言主成分PCA、因子分析、聚類對地區經濟研究分析重慶市經濟指標

數據分享|R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化

R語言邏輯回歸logistic模型分析泰坦尼克titanic數據集預測生還情況R語言是否對二分連續變量執行邏輯回歸

R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據

R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析

R語言基於Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者

R語言邏輯回歸(Logistic回歸)模型分類預測病人冠心病風險

R語言用局部加權回歸(Lowess)對logistic邏輯回歸診斷和殘差分析R語言用主成分PCA、 邏輯回歸、決策樹、隨機森林分析心臟病數據並高維可視化

R語言用線性模型進行臭氧預測:加權泊松回歸,普通最小二乘,加權負二項式模型,多重插補缺失值R語言Bootstrap的嶺回歸和自適應LASSO回歸可視化

R語言中回歸和分類模型選擇的性能指標

R語言多元時間序列滾動預測:ARIMA、回歸、ARIMAX模型分析

R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據

R語言計量經濟學:虛擬變量(啞變量)在線性回歸模型中的應用

R語言 線性混合效應模型實戰案例

R語言混合效應邏輯回歸(mixed effects logistic)模型分析肺癌數據

R語言如何用潛類別混合效應模型(LCMM)分析抑鬱症狀

R語言基於copula的貝葉斯分層混合模型的診斷準確性研究

R語言建立和可視化混合效應模型mixed effect model

R語言LME4混合效應模型研究教師的受歡迎程度

R語言 線性混合效應模型實戰案例

R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)

R語言基於copula的貝葉斯分層混合模型的診斷準確性研究

R語言如何解決線性混合模型中畸形擬合(Singular fit)的問題

基於R語言的lmer混合線性回歸模型

R語言用WinBUGS 軟體對學術能力測驗建立層次(分層)貝葉斯模型

R語言分層線性模型案例

R語言用WinBUGS 軟體對學術能力測驗(SAT)建立分層模型

使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM

R語言用WinBUGS 軟體對學術能力測驗建立層次(分層)貝葉斯模型

SPSS中的多層(等級)線性模型Multilevel linear models研究整容手術數據

用SPSS估計HLM多層(層次)線性模型模型R語言高維數據的主成分pca、 t-SNE算法降維與可視化分析案例報告

R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例

R語言有RStan的多維驗證性因子分析(CFA)

主成分分析(PCA)原理及R語言實現及分析實例

R語言無監督學習:PCA主成分分析可視化

R語言使用Metropolis- Hasting抽樣算法進行邏輯回歸

R語言多元Logistic邏輯回歸 應用案例

R語言自適應LASSO 多項式回歸、二元邏輯回歸和嶺回歸應用分析

R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測

R語言基於樹的方法:決策樹,隨機森林,Bagging,增強樹

spss modeler用決策樹神經網絡預測ST的股票

R語言中自編基尼係數的CART回歸決策樹的實現

python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者

matlab使用分位數隨機森林(QRF)回歸樹檢測異常值

基於隨機森林、svm、CNN機器學習的風控欺詐識別模型

R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例

R語言用標準最小二乘OLS,廣義相加模型GAM ,樣條函數進行邏輯回歸LOGISTIC分

文章來源: https://twgreatdaily.com/zh-tw/8c3871d190060528d9b998152b8602f2.html