數據科學家:21世紀最髒的工作

2020-03-23     讀芯術

全文共2311字,預計學習時長7分鐘

來源:cfzyjsxy


在大數據世界裡,數據科學家受到人們的尊敬,他們採用人工智慧或深度學習的方法,提出寶貴的商業見解,造福社會。


《哈佛商業評論》曾這樣描述數據科學家——「數據科學家從事著21世紀最時尚的工作」。


對我來說,雖然過去五年擁有著「數據科學家」這個頭銜,但我仍然沒有完全弄清楚工作的哪個部分很時尚。可能是我新燙的頭髮使我看起來像韓國歐巴。


確實,雲端的出現以及企業朝著網際網路方向的發展,帶來了數據的爆炸。這推動了某些部門對數據科學家的需求以及該崗位的短缺。


但是,數據科學家每天要做什麼工作呢?


通過分析領英上發布的職位信息,可以找到此問題的答案。以下總結了一些熱門的崗位要求:


· 了解業務和客戶,驗證假設理論

· 建立預測模型和機器學習流水線,進行A/ B測試

· 對業務相關者進行概念化分析

· 開發算法以賦能商業決策

· 試驗並研究新技術和方法,提高技術能力。


這些聽起來很時尚/高大上,不是嗎?


除非工作還包括處理Kaggle數據集,否則這些工作描述只是數據科學家工作的一小部分。


以下調查結果由CrowdFlower發布,總結了數據科學家的日常活動:


數據科學家花費時間最多的事情。[摘自CrowdFlower]


從上表可以看出,數據科學家大部分時間都在收集數據集,清理和組織數據。


21世紀的高性能數據真空

數據湖是一個集中存儲庫,存儲著公司的所有數據。公司得以使用該數據構建機器學習模型和儀錶板。遺憾的是,有些人僅僅把數據湖當作數據轉儲的場所,或者超大硬碟。


許多公司開始實施數據湖時,對如何處理收集到的數據一無所知。這些公司會說:「讓我們收集所有的數據吧。」雖然數據湖的重點是將公司的所有數據集中在一個地方,但仍然需要根據特定的項目需求進行設計。如果不進行任何計劃,你就像創建了一個新的「無標題文件夾」,然後在其中複製並粘貼公司的全部數據。


如果把台式機視為數據轉儲場


從歷史的角度看,糟糕的計劃會帶來雜亂無章的元數據,這讓任何人都很難搜索或查找所需的數據。數據科學家經常需要與不同部門聯繫以獲取數據。他們可能需要從不同的數據所有者中獲取有關數據的信息。僅存儲數據而不進行分類是一個很大的錯誤。建立有效數據湖的關鍵就是要確保元數據有良好的歸類。


由於數據治理問題或數據所有者過於忙碌,且他們往往是不同部門的利益相關者,因此獲取重要數據可能需要數周的時間。觀察一段時間後,數據科學家可能最終會發現數據不相關或存在嚴重的質量問題。


當數據科學家最終收集到數據時,他們需要花費大量時間來探索和熟悉這些數據,必須將這些混亂的數據塊重組為符合項目需求的新表。


21世紀裡高需求的數據管理員


來源:data.lovedata


每個處理數據的專業人員都應該聽說過「髒數據」一詞。髒數據影響了數據集的完整性。髒數據的特徵有:不完整、不準確、不一致和重複。


不完整的數據是指當某些基本功能為空時,例如,假設任務是預測房價。假設「房子的位置」對於做出良好的預測至關重要,但是這一數據卻沒有。這可能會變得具有挑戰性,並且模型的效果也不佳。


不正確的數據和不一致的數據是指該值在技術上是正確的,但在語境下是錯誤的。例如,一名員工更改了地址,但數據卻未更新,或者當數據有很多副本,而數據科學家得到的版本卻已過時。


數據重複也是一個常見問題。在此分享一個我在電子商務公司工作時發生的故事。按照設計,當訪問者單擊「收集優惠券」按鈕時,網站將響應發送到伺服器。這使我們能夠衡量已收集到優惠券的用戶數量。


該網站一直運行良好,直到有一天出現了一些變化,而我對此一無所知。前端開發人員在有人成功收集優惠券時添加了另一個響應,理由是某些優惠券可能缺貨了。數據科學家想跟蹤單擊該按鈕的訪問者,以及已經收集了優惠券的訪問者。


這時,兩個響應發送到同一日誌表。看看我的報告工具,優惠券的數量似乎在一夜之間翻了一番!在前一天部署模型時,我以為新模型是很成功的。我記得曾為這個小模型歡呼鼓掌,但後來意識到這只是在重複計算。


另外,在過去五年里,作為數據科學家,我收集到的一些數據是公司員工手動輸入的。在Excel電子表格中,許多數據是不準確、不完整且不一致的。


無論數據是人工輸入還是機器日誌,數據整理在現實世界中應用廣泛。數據科學家必須處理這些數據。為了使監督學習有效,我們需要可靠的、分類好的數據。除非正確標記數據,否則無法建立預測模型。但是沒有人喜歡標記數據。


許多人將其描述為二八規則。數據科學家僅花了20%的時間構建模型,而其他80%的時間用於收集、分析、清理和重組數據。處理髒數據是數據科學家日常工作中最耗時的。


來源:Pexels


有必要說明的是,數據清理至關重要,混亂的數據不會帶來良好的結果,你可能聽過「垃圾進,垃圾出」這句話。


數據科學家在瀏覽數據時確實會有所發現,但是在數據科學家可以開始訓練任何模型之前,必須首先成為數據管理員。數據需要清理,也需要標記。


所以,將數據科學家稱為大數據世界的清潔工,應該也挺合適吧……

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載,請後台留言,遵守轉載規範

文章來源: https://twgreatdaily.com/7uHtBXEBfwtFQPkdYkxw.html