格式化和清洗數據的 Python 工具包

世界很雜亂，來自現實世界的數據也一樣雜亂。近來一份調查報告顯示數據科學家60%的時間都花在整理數據上。不幸的是，57%的人認為這是工作中最頭疼的一部分。

整理數據非常消耗時間，不過也有許多工具被開發出來讓這關鍵的一步變得稍微可以忍受。Python 社區提供了許多庫讓數據變得清晰有序——從格式化 DataFrame 到匿名化數據集。

告訴我們你覺得有用的庫——我們一直致力於優化放入Mode Python Notebooks中的庫。

Dora

Dora是為探索性分析而設計的。特別是自動化分析中最痛苦的部分——比如特徵選取和提取，可視化，還有你能猜到的——數據清潔。數據清潔相關的函數可以：

讀取含有缺失數據和沒有標準化的數據表

給缺失數據賦值

標準化變量

開發者:Nathan Epstein

更多資料:https://github.com/NathanEpstein/Dora

datacleaner

號外號外，datacleaner 清洗你的數據——不過只有在你的數據是 pandas DataFrame 實例的時候。開發者Randy Olson說：「datacleaner 不是魔法，它無法神奇的解析你沒有結構的數據。」

它可以刪除含有缺失數據的行，或者利用列的眾數或中位數填充缺失數據，將非數值型變量轉化為數值型變量。這個庫很新，但考慮到DataFrame 是 Python 數據分析的基本數據結構，這個庫還是值得試試看的。

開發者:Randy Olson

更多資料:https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame 很強大，但是它們無法製作出你可以直接給你的老闆看的表。PrettyPandas 利用了pandas 風格 API 將 DataFrame 轉換成可以演示的表格。產生數據摘要，設置風格，調整數據格式，列和行。附加福利：強健，可讀性高的使用文檔。

開發者:Henry Hammond

更多資料:https://github.com/HHammond/PrettyPandas

tabulate

tabulate 可以讓你僅僅用一個函數調用生成小型耐看的表格。非常適合於通過調整小數點列對齊，數據格式，表頭和其他讓表格可讀性更高。

它有一個超酷的功能是可以讓表格輸出成不同的格式：HTML, PHP 或者 Markdown Extra，這樣你可以用其他的工具或語言繼續在使用你已經表格化的數據。

開發者: Sergey Astanin

更多資料:https://pypi.python.org/pypi/tabulate

scrubadub

健康領域和金融領域的數據科學家常需要匿名化數據集。scrubadub可以將私人信息 (PII) 從文本從移除。例如：

姓名 (名詞)

Email地址

網絡連結

電話號碼

用戶名/密碼組

Skype 用戶名

社會保險號

文檔很好的演示了通過哪些途徑你可以自定義 scrubadub 的行為，例如定義新的 PII 或者保留特定的 PII。

開發者:Datascope Analytics

更多資料:http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

讓我們實話實說：在 Python 里處理日期和時間是很痛苦的。當地時區無法被自動識別。得用好幾行不那麼讓人舒服的代碼來轉換時區和時間戳。

Arrow 旨於解決這個問題並且填補這個功能空白，從而讓你可以用更少的代碼和引入庫來完成對日期和時間的操作。跟 Python 的標準時間庫不同的是，Arrow 默認自動識別時區和 UTC。你可以只用一行代碼來完成時區轉換或者分析時間字符串。

開發者:Chris Smith

更多資料:http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier 的任務很簡單：清洗 URL 和 Email 地址並讓它們看起來更漂亮。你可以通過域名和用戶名來解析 email ；通過域名和參數來解析URL。（UTM 或者標記）

開發者:Sachin Philip Mathew

更多資料:https://github.com/sachinvettithanam/beautifier

ftfy

ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. â€œquotesâ€x9d becomes "quotes"; uÌˆ becomes ü; <3 becomes <3. If you work with text on a daily basis, this library is, as one user says, 「a handy piece of magic.」

ftfy (fixes text for you)將雜亂的Unicode轉化為可識別的Unicode。簡單的說，它處理所有的垃圾字符。â€œquotesâ€x9d 變成 "quotes"; uÌˆ 變成 ü; <3 變成 <3.

開發者:Luminoso

更多資料:https://github.com/LuminosoInsight/python-ftfy

更多技巧請《轉發 + 關注》哦！

格式化和清洗數據的 Python 工具包

新手SEO如何去做好一個網站簡析新手做網站的經驗

excel表格數據怎麼製作成創意的心形柱形圖表？

WPS2019表格怎麼實現數據前自動加貨幣符號？

橙瓜碼字怎麼進行稿費計算橙瓜碼字計算稿費的方法

知識就是金錢之：word怎麼快速創建堆疊列表？

iPhone11 Pro和Pixel 4哪款拍照好 iPhone11 Pro和Pixel 4拍照對

魅族16T和紅米K20 Pro哪款好魅族16T和紅米K20 Pro區別對比

realme Q和紅米Note8哪款好 realme Q和紅米Note8區別對比

三星Galaxy A50s值不值得買三星Galaxy A50s手機全面評測

vivo S5怎麼樣一圖看懂vivo S5新機

新一代5G旗艦聯想Z6 Pro 5G版怎麼樣聯想Z6 Pro 5G版全面體驗評

美團袋鼠豆怎麼查看？美團袋鼠豆的查看方法

word2016怎麼製作圓箭頭流程圖？

word2016怎麼快速製作射線群集？

知識就是金錢之：ppt怎麼設計箭頭效果的時間軸？

橙瓜碼字怎樣找回歷史內容找回歷史版本內容操作方法介紹

知識就是金錢之：微信小程序開發搖一搖功能

vue使用recorder.js實現錄音功能

webpack優化之代碼分割與公共代碼提取詳解

mpvue微信小程序開發之實現一個彈幕評論

Egg Vue SSR 服務端渲染數據請求與asyncData

JavaScript This指向問題詳解

VUE.CLI4.0配置多頁面入口的實現

知識就是金錢之：uni-app實現點贊評論功能