R語言使用虛擬變量(Dummy Variables) 回歸分析工資影響因素|附代碼數據

2023-10-16     tecdat拓端

原標題:R語言使用虛擬變量(Dummy Variables) 回歸分析工資影響因素|附代碼數據

全文連結:http://tecdat.cn/?p=23170

最近我們被客戶要求撰寫關於虛擬變量回歸的研究報告,包括一些圖形和統計輸出。

在本文中,本文與以下兩個問題有關。你應該如何添加虛擬變量?你應該如何解釋結果

簡介

如果使用一個例子,我們可能會更容易理解這些問題。

數據

假設我們想研究工資是如何由教育、經驗和某人是否擔任管理職務決定的。假設

  • 每個人都從年薪4萬開始。
  • 實踐出真知。每增加一年的經驗,工資就增加5千。
  • 你學得越多,你的收入就越多。高中、大學和博士的年薪增長分別為0、10k和20k。
  • 海面平靜時,任何人都可以掌舵。對於擔任管理職位的人,要多付20k。
  • 天生就是偉大的領導者。對於那些只上過高中卻擔任管理職位的人,多給他們3萬。
  • 隨機因素會影響工資,平均值為0,標準差為5千。

下面是部分數據和摘要。

繪製數據

有和沒有管理職位的人的工資和教育之間的關係。

jitter(alpha=0.25,color=colpla[4])+

facet_wrap(~管理職位)+

boxplot(color=colpla[2])

有管理職位和沒有管理職位的人的工資和經驗之間的關係,以教育為基礎。

點擊標題查閱往期內容

線性回歸和時間序列分析北京房價影響因素可視化案例

左右滑動查看更多

01

02

03

04

stat_smooth(method = "lm")+

facet_wrap(~管理職位)

回歸分析

忽略教育和管理之間的相互作用

我們只將工資與教育、經驗和管理職位進行回歸。其結果是

雖然這些參數在統計學上是有意義的,但這並沒有任何意義。與高中相比,大學學歷怎麼可能使你的工資減少5105?

正確的模型應該包括教育和管理職位的交互項。

添加教育和管理之間的交互作用

現在,讓我們添加教育和管理之間的交互項,看看會發生什麼。

對結果的解釋

現在的結果是有意義的。

  • 截距為40137(接近4萬)是基本保障收入。
  • 教育的基數是高中。與高中相比,大學教育可以平均增加9833元(接近1萬)的工資。與高中相比,博士教育可以增加19895元(接近2萬)的工資。
  • 多一年的工作經驗可以使工資增加4983元(接近5千)。
  • 擔任管理職位的高中畢業生有49695元的溢價(接近5萬)。這些人是天生的領導者。
  • 與擔任管理職位的高中畢業生相比,擔任管理職位的大學畢業生的溢價減少了29965.51至29571(49735.74-29965.51,接近2萬)。
  • 與高中畢業生擔任管理職位相比,博士畢業生擔任管理職位的溢價減少了29501至19952.87(接近2萬)。另外,你可以說管理職位產生了20K的基本溢價,而不考慮教育水平。除了這2萬外,高中畢業生還能得到3萬,使總溢價增加到5萬。

檢驗是否違反了模型的假設

為了使我們的模型有效,我們需要滿足一些假設。

  • 誤差應該遵循正態分布

正態Q-Q圖看起來是線性的。所以這個假設得到了滿足。

  • 沒有自相關

D-W檢驗值為1.8878,接近2,因此,這個假設也滿足。

  • 沒有多重共線性

預測變量edu、exp和mngt的VIF值均小於5,因此滿足這一假設。

用數據的子集進行回歸

你可以通過用一個數據子集運行模型來獲得同樣的結果。你可以將數據按教育程度分成子集,並在每個子集上運行回歸模型,而不是使用一個教育的虛擬變量。

如果只用高中生的數據,你會得到這樣的結果。

sub<-d %>%

+ filter(教育=="高中")

僅憑大學生的數據,你就能得到這個結果。

只用來自博士生的數據,你會得到這個結果。

點擊文末 「閱讀原文」

獲取全文完整代碼數據資料。

本文選自《R語言使用虛擬變量(Dummy Variables) 回歸分析工資影響因素》。

點擊標題查閱往期內容

Python用RNN神經網絡:LSTM、GRU、回歸和ARIMA對COVID19新冠疫情人數時間序列預測

非線性回歸nls探索分析河流階段性流量數據和評級曲線、流量預測可視化

非線性回歸beta係數估算股票市場的風險分析亞馬遜股票和構建投資組合

R語言因子實驗設計nlme擬合非線性混合模型分析有機農業施氮水平

R語言非線性混合效應 NLME模型(固定效應&隨機效應)對抗哮喘藥物茶鹼動力學研究

Python用T-SNE非線性降維技術擬合和可視化高維數據iris鳶尾花、MNIST 數據

R語言nlme、nlmer、lme4用(非)線性混合模型non-linear mixed model分析藻類數據實例

Python中的多項式回歸擬合非線性關係實例

使用R語言進行多項式回歸、非線性回歸模型曲線擬合

R語言多項式回歸擬合非線性關係

R語言里的非線性模型:多項式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析

R語言自適應LASSO 多項式回歸、二元邏輯回歸和嶺回歸應用分析

R語言ISLR工資數據進行多項式回歸和樣條回歸分析

R語言中的多項式回歸、局部回歸、核平滑和平滑樣條回歸模型

R語言多項式線性模型:最大似然估計二次曲線

R語言廣義線性模型GLM、多項式回歸和廣義可加模型GAM預測鐵達尼號倖存者

R語言中的多項式回歸、B樣條曲線(B-spline Curves)回歸

R語言用多項式回歸和ARIMA模型預測電力負荷時間序列數據

R語言機器學習實戰之多項式回歸

R語言ISLR工資數據進行多項式回歸和樣條回歸分析

文章來源: https://twgreatdaily.com/zh-sg/35df0a94cfcf15dbfafc76ca1f69a7b5.html