樸素貝葉斯算法的python實現

算法優缺點

優點：在數據較少的情況下依然有效，可以處理多類別問題

缺點：對輸入數據的準備方式敏感

適用數據類型：標稱型數據

算法思想：

樸素貝葉斯

比如我們想判斷一個郵件是不是垃圾郵件，那麼我們知道的是這個郵件中的詞的分布，那麼我們還要知道：垃圾郵件中某些詞的出現是多少，就可以利用貝葉斯定理得到。

樸素貝葉斯分類器中的一個假設是：每個特徵同等重要

貝葉斯分類是一類分類算法的總稱，這類算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。

函數

loadDataSet()

創建數據集，這裡的數據集是已經拆分好的單詞組成的句子，表示的是某論壇的用戶評論，標籤1表示這個是罵人的

createVocabList(dataSet)

找出這些句子中總共有多少單詞，以確定我們詞向量的大小

setOfWords2Vec(vocabList, inputSet)

將句子根據其中的單詞轉成向量，這裡用的是伯努利模型，即只考慮這個單詞是否存在

bagOfWords2VecMN(vocabList, inputSet)

這個是將句子轉成向量的另一種模型，多項式模型，考慮某個詞的出現次數

trainNB0(trainMatrix,trainCatergory)

計算P(i)和P(w[i]|C[1])和P(w[i]|C[0])，這裡有兩個技巧，一個是開始的分子分母沒有全部初始化為0是為了防止其中一個的機率為0導致整體為0，另一個是後面乘用對數防止因為精度問題結果為0

classifyNB(vec2Classify, p0Vec, p1Vec, pClass1)

根據貝葉斯公式計算這個向量屬於兩個集合中哪個的機率高

#coding=utf-8

from numpy import *

def loadDataSet():

postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],

['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],

['stop', 'posting', 'stupid', 'worthless', 'garbage'],

['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],

['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

classVec = [0,1,0,1,0,1] #1 is abusive, 0 not

return postingList,classVec

#創建一個帶有所有單詞的列表

def createVocabList(dataSet):

vocabSet = set([])

for document in dataSet:

vocabSet = vocabSet | set(document)

return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):

retVocabList = [0] * len(vocabList)

for word in inputSet:

if word in vocabList:

retVocabList[vocabList.index(word)] = 1

else:

print 'word ',word ,'not in dict'

return retVocabList

#另一種模型

def bagOfWords2VecMN(vocabList, inputSet):

returnVec = [0]*len(vocabList)

for word in inputSet:

if word in vocabList:

returnVec[vocabList.index(word)] += 1

return returnVec

def trainNB0(trainMatrix,trainCatergory):

numTrainDoc = len(trainMatrix)

numWords = len(trainMatrix[0])

pAbusive = sum(trainCatergory)/float(numTrainDoc)

#防止多個機率的成績當中的一個為0

p0Num = ones(numWords)

p1Num = ones(numWords)

p0Denom = 2.0

p1Denom = 2.0

for i in range(numTrainDoc):

if trainCatergory[i] == 1:

p1Num +=trainMatrix[i]

p1Denom += sum(trainMatrix[i])

else:

p0Num +=trainMatrix[i]

p0Denom += sum(trainMatrix[i])

p1Vect = log(p1Num/p1Denom)#處於精度的考慮，否則很可能到限歸零

p0Vect = log(p0Num/p0Denom)

return p0Vect,p1Vect,pAbusive

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

p1 = sum(vec2Classify * p1Vec) + log(pClass1) #element-wise mult

p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)

if p1 > p0:

return 1

else:

return 0

def testingNB():

listOPosts,listClasses = loadDataSet()

myVocabList = createVocabList(listOPosts)

trainMat=[]

for postinDoc in listOPosts:

trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))

testEntry = ['love', 'my', 'dalmation']

thisDoc = array(setOfWords2Vec(myVocabList, testEntry))

print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)

testEntry = ['stupid', 'garbage']

thisDoc = array(setOfWords2Vec(myVocabList, testEntry))

print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)

def main():

testingNB()

if __name__ == '__main__':

main()

更多技巧請《轉發 + 關注》哦！

樸素貝葉斯算法的python實現

新手SEO如何去做好一個網站簡析新手做網站的經驗

excel表格數據怎麼製作成創意的心形柱形圖表？

WPS2019表格怎麼實現數據前自動加貨幣符號？

橙瓜碼字怎麼進行稿費計算橙瓜碼字計算稿費的方法

知識就是金錢之：word怎麼快速創建堆疊列表？

iPhone11 Pro和Pixel 4哪款拍照好 iPhone11 Pro和Pixel 4拍照對

魅族16T和紅米K20 Pro哪款好魅族16T和紅米K20 Pro區別對比

realme Q和紅米Note8哪款好 realme Q和紅米Note8區別對比

三星Galaxy A50s值不值得買三星Galaxy A50s手機全面評測

vivo S5怎麼樣一圖看懂vivo S5新機

新一代5G旗艦聯想Z6 Pro 5G版怎麼樣聯想Z6 Pro 5G版全面體驗評

美團袋鼠豆怎麼查看？美團袋鼠豆的查看方法

word2016怎麼製作圓箭頭流程圖？

word2016怎麼快速製作射線群集？

知識就是金錢之：ppt怎麼設計箭頭效果的時間軸？

橙瓜碼字怎樣找回歷史內容找回歷史版本內容操作方法介紹

知識就是金錢之：微信小程序開發搖一搖功能

vue使用recorder.js實現錄音功能

webpack優化之代碼分割與公共代碼提取詳解

mpvue微信小程序開發之實現一個彈幕評論

Egg Vue SSR 服務端渲染數據請求與asyncData

JavaScript This指向問題詳解

VUE.CLI4.0配置多頁面入口的實現

知識就是金錢之：uni-app實現點贊評論功能