Python數據挖掘——文本分析

作者 | zhouyue65

來源 | 君泉計量

文本挖掘：從大量文本數據中抽取出有價值的知識，並且利用這些知識重新組織信息的過程。

一、語料庫（Corpus）

語料庫是我們要分析的所有文檔的集合。

二、中文分詞

2.1 概念：

中文分詞（Chinese Word Segmentation）：將一個漢字序列切分成一個一個單獨的詞。

eg：我的家鄉是廣東省湛江市-->我/的/家鄉/是/廣東省/湛江市

停用詞（Stop Words）：

數據處理時，需要過濾掉某些字或詞

√泛濫的詞，如web、網站等。

√語氣助詞、副詞、介詞、連接詞等，如的，地，得；

2.2 安裝Jieba分詞包：

最簡單的方法是用CMD直接安裝：輸入pip install jieba，但是我的電腦上好像不行。

後來在這裡：https://pypi.org/project/jieba/#files下載了jieba0.39解壓縮後放在Python36\\Lib\\site-packages裡面，然後在用cmd，pip install jieba 就下載成功了，不知道是是什麼原因。

然後我再anaconda 環境下也安裝了jieba，先在Anaconda3\\Lib這個目錄下將jieba0.39的解壓縮文件放在裡面，然後在Anaconda propt下輸入 pip install jieba，如下圖：

2.3 代碼實戰：

jieba最主要的方法是cut方法：

jieba.cut方法接受兩個輸入參數:

1) 第一個參數為需要分詞的字符串

2）cut_all參數用來控制是否採用全模式

jieba.cut_for_search方法接受一個參數：需要分詞的字符串,該方法適合用於搜尋引擎構建倒排索引的分詞，粒度比較細

注意：待分詞的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut以及jieba.cut_for_search返回的結構都是一個可疊代的generator，可以使用for循環來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list代碼示例( 分詞 )

輸出結果為：我愛

Python

工信處

女幹事

每月經過下屬科室都要親口

交代

24 口交換機等技術性器件的安裝

工作

分詞功能用於專業的場景：

會出現真武七截陣和天罡北斗陣被分成幾個詞。為了改善這個現象，我們用導入詞庫的方法。

但是，如果需要導入的單詞很多，jieba.add_word()這樣的添加詞庫的方法就不高效了。

我們可以用jieba.load_userdict(『D:\\\\PDM\\\\2.2\\\\金庸武功招式.txt』)方法一次性導入整個詞庫，txt文件中為每行一個特定的詞。

2.3.1 對大量文章進行分詞

先搭建語料庫：

分詞後我們需要對信息處理，就是這個分詞來源於哪個文章。

四、詞頻統計

3.1詞頻（Term Frequency）：

某個詞在該文檔中出現的次數。

3.2利用Python進行詞頻統計

3.2.1 移除停用詞的另一種方法，加if判斷

代碼中用到的一些常用方法：

分組統計：

判斷一個數據框中的某一列的值是否包含一個數組中的任意一個值：

取反：（對布爾值）

四、詞雲繪製

詞雲（Word Cloud）：是對文本中詞頻較高的分詞，給與視覺上的突出，形成「關鍵詞渲染」，從而國旅掉大量的文本信息，使瀏覽者一眼掃過就可以領略文本的主旨。

4.1 安裝詞雲工具包

這個地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/ ，可以搜到基本上所有的Python庫，進去根據自己的系統和Python的版本進行下載即可。

在python下安裝很方便，在anaconda下安裝費了點勁，最終將詞雲的文件放在C:\\Users\\Administrator 這個目錄下才安裝成功。

五、美化詞雲（詞雲放入某圖片形象中）

六、關鍵詞提取

結果如下:

七、關鍵詞提取實現

詞頻（Term Frequency）：指的是某一個給定的詞在該文檔中出現的次數。

計算公式： TF = 該次在文檔中出現的次數

逆文檔頻率（Inverse Document Frequency）：IDF就是每個詞的權重，它的大小與一個詞的常見程度成反比

計算公式：IDF = log（文檔總數/（包含該詞的文檔數 - 1））

TF-IDF（Term Frequency-Inverse Document Frequency）：權衡某個分詞是否關鍵詞的指標，該值越大，是關鍵詞的可能性就越大。

計算公式：TF - IDF = TF * IDF

7.1文檔向量化

7.2代碼實戰

Python數據挖掘——文本分析

雙十一「考證過冬」 ---CDA數字化人才認證（文末大禮不容錯過）

統計建模-戶需求調研之用戶訪談

傳播客戶價值之銷售實操：一對一營銷

網易伏羲遊戲AI Bot的擬人化和風格化：AIGA賦能遊戲探索

復購率指標解讀及mysql實現

母豬產仔早知道，這次南農用上了英偉達邊緣 AI Jetson

產品開發周期之傳播客戶價值階段_1

數據分析師職業發展的五大問題，一次掃清！

數字化的價值究竟是什麼？

掙得少？加班多？用數據分析挖掘員工離職的真正原因！

內卷下企業開發團隊如何才能體現價值

100種分析思維模型之：批判性思維

2023企業數據應用能力調查報告

Data+AI行業盛宴，你來了嗎？

除了賣產品軟體公司還能做什麼？

數據歸因模型，該如何搭建？

來自數字化轉型深處的100個靈魂拷問

漫漫兮且坎坷的跨國企業數字化之路

我手把手修改了一份【有前瞻性】的數據分析報告

用戶細分，該怎麼分才最見效果

企業數字化轉型大實話

數字化轉型到底在轉什麼？

國內外數據安全立法都有哪些？

BI數據分析-方案計劃