數據報告分享|WEKA貝葉斯網絡挖掘學校在校人數影響因素數據分類模型

2024-01-15     tecdat拓端

原標題:數據報告分享|WEKA貝葉斯網絡挖掘學校在校人數影響因素數據分類模型

全文連結:https://tecdat.cn/?p=33159

原文出處:拓端數據部落公眾號

本文著眼普通高等學校在校學生人數,提出了不同種類學校的在校人數可能存在的影響關係從而探究教育現狀的因素,建立分類模型,探求這幾個因素間的數量關係。

本文試圖幫助客戶通過研究不同種類學校的在校人數的關係,從而挖掘出學校在校人數對技校在校人數是否有影響。

問題分析

本次選取來自廣東省統計年鑑1978年以來的各級各類學校在校學生數數據。

並對高等學校、中等職業教育學校 、技工學校、 普通中學、小學的人數進行貝葉斯分類分析,試圖通過分類分析得到不同學校類型在校人數之間存在的關係,從而得出結論,提出建議。

WEKA 使用流程

WEKA使學習應用機器學習方便,高效和樂趣。這是一個GUI工具,它允許您加載數據集,運行算法設計及運行試驗與統計結果。

1. 進入軟體

啟動Weka的。這可能涉及發現它在程序啟動或雙擊該文件weka.jar。這將啟動GUI的Weka選配。

Weka的GUI選擇器可以讓你選擇資源管理器中,實驗者,KnowledgeExplorer和簡單CLI(命令行介面)中的一個。

2. 加載數據

該GUI讓您加載數據集,運行分類算法。它還提供了其他的功能,如數據過濾,聚類,關聯規則提取和可視化,但現在我們不會使用這些功能的。

點擊「打開文件...」按鈕,打開「數據」目錄中的數據集並雙擊。

WEKA提供了一些常見的小機器學習數據集,你可以用它來練習上。

3. 進行挖掘

現在你已經加載的數據集,它的時間來選擇一個機器學習算法建模的問題,並作出預測。

點擊「分類」標籤。這是用於運行針對Weka的一個裝載數據集的算法的區域。

點擊「開始」按鈕,運行該算法。

數據 預處理

本次分析的數據來自廣東省統計年鑑的各級各類學校在校學生數數據。《廣東統計年鑑》(下簡稱《年鑑》)系統收錄了全省及各市、縣(區)在校人數的統計數據,以及1978年以來各個主要時期全省一共221條主要統計數據。

指標選取

本次分析一共選取了5個指標221個樣本,分別是:高等學校、中等職業教育學校 、技工學校、 普通中學、小學。

貝葉斯網絡

貝葉斯網絡是一種機率網絡,它是基於機率推理的圖形化網絡,而貝葉斯公式則是這個機率網絡的基礎。

由乘法公式,我們得到

P (A | B) = P (A, B) / P (B)=(P(B|A)P(A))/P(B)

這就是著名的貝葉斯公式。

貝葉斯公式幾乎是所有機率推理的現代人工智慧系統的基礎。這個式子同樣表示一組公式,每個公式處理變量的特定取值。我們還有某些場合要在某個背景證據e上使用一個更通用版本的條件化公式:

貝葉斯法則是在一個條件機率和2個無條件機率的基礎上計算另一個條件機率。

貝葉斯法則對於回答在某一條證據的條件約束下的機率問題是非常有用的,而且我們已經討論過機率信息經常是以P(結果 | 原因)的形式出現的。

為了解決以上問題,我們利用『獨立性』。

給定第三個隨機變量Z(證據)之後,兩個隨機變量X和Y的條件獨立性的一般定義是:

P(X,Y|Z)=P(X|Z)P(Y|Z)

也可以用以下形式來表示

P(X|Y,Z)=P(X|Z)

P(Y|X,Z)=P(Y|Z)

因此對於前面講過的決對獨立斷言,允許將全聯合分布分解成很多更小的分布,對於條件獨立性斷言也是同樣成立的。

通過條件獨立性,將一個大的機率領域分解城一些相互聯繫非常弱的子集,並允許機率系統進行規模擴展,而且條件獨立性也比決對獨立性斷言更加普遍,稱為素貝葉斯模型。

數據準備:

首先在weka中打開數據

查看每個學校的人數分布直方圖

數據預處理:

為了消除數據量綱的變化,數據標準化

然後將數據進行離散化 ,分成幾個不同等級

貝葉斯模型訓練:

建立貝葉斯模型,訓練模型:

將技工學校的人數作為預測變量

實驗結果

十折交叉驗證

方法的比較

為了進行對比分析,本文選用準確率(Precision)、召回率(Recall)和覆蓋率(Coverage)度量。

推薦結果的召回率定義為:

推薦結果的準確率定義為:

覆蓋率(Coverage)描述的是一個推薦系統對物品長尾的發掘能力。推薦系統的覆蓋率可以通過下面的公式計算:

得到每個類別的準確率 召回率 roc等結果:

混淆矩陣

對模型進行優化

每個類別的準確度和召回率等信息

混淆矩陣

對分類結果進行可視化

從散點圖來看,可以看到不同顏色代表不同技工學校的人數分類。縱軸代表預測人數,橫軸代表實際人數。由於預測人數分布在y=x的直線上,因此可以認為預測人數等於實際人數,說明模型的預測效果良好。

由上圖的比較可以看到,本文使用核函數進行改進後的方法的統計指標均明顯優於各個子預測方法,準確度分別提高了 34%,召回率將對於之前算法提高為36% ,總體來說有明顯的提高。

結論

從模型的結果來看,不同種類的學校的在校人數之間存在一定的聯繫。通過貝葉斯網絡模型可以利用年份小學,初中等在校人數來預測技校的在校人數的數量,因此長遠來看,我們可以通過不同學校的在校人數來預測未來人數的發展趨勢。同時說明小學、初中的在校人數會影響技工學校的在校人數,同時技工學校人數和大學在校人數也有關係。高中畢業之後有些人會選擇去技工學校學習專業技能,有些人會選擇去高校深造,他們之間存在負相關關係,同時良好的初中小學的教育也會影響本科在校人數,因此對學生的義務教育也是相當重要的。

同時,在未來的研究中,還要結合辦學條件、教學質量、學校內部結構等方面的因素來對學校的因素進行更深程度的研究。

最受歡迎的見解

1.matlab使用貝葉斯優化的深度學習

2.matlab貝葉斯隱馬爾可夫hmm模型實現

3.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真

4.R語言中的block Gibbs吉布斯採樣貝葉斯多元線性回歸

5.R語言中的Stan機率編程MCMC採樣的貝葉斯模型

6.R語言貝葉斯Poisson泊松-正態分布模型分析職業足球比賽進球數

7.R語言使用貝葉斯 層次模型進行空間數據分析

8.R語言隨機搜索變量選擇SSVS估計貝葉斯向量自回歸(BVAR)模型

9.matlab貝葉斯隱馬爾可夫hmm模型實現

文章來源: https://twgreatdaily.com/zh/37daf9d0321124d79ebc58414c87eb91.html