最近有個朋友找到我,說是想要轉行做數據分析師,但是卻不知道在數據分析的求職環境怎麼樣?而且自己什麼工具都不會,python、R語言什麼的也都是淺嘗輒止,擔心自己一轉行就失業。
這也是很多想要轉行數據分析的人的困惑,其實數據分析入門並不難,只要掌握了Excel數據分析的基礎,基本上就已經拿到了數據分析的敲門磚,Excel既是基礎也是關鍵,是邁向數據分析的第一步。
所以我就從網上爬了一些求職網站上關於數據分析崗位的情況,用Excel做一次完整又簡單的數據分析實操,幫助大家能夠儘快學會數據分析的基礎。
一、提出問題
首先要明確這次數據分析的目的是什麼?也就是為了解決什麼問題?(提出的問題要能用很明確的指標和數字來衡量,切勿模稜兩可)
提出問題:
1、在哪些城市找到數據分析師工作的機會比較大?
2、數據分析師的薪水如何?
3、根據工作經驗的不同,薪酬是怎樣變化的?
二、理解數據
接下來要理解表格中的各個欄位(列名)表示什麼意思:
- 城市:用於比較不同城市對數據分析師的需求如何
- 職位所屬:分析以後的工作崗位
- 職位ID:表示職位的唯一表示,也就是每一行數據的唯一標識------用於去掉重複ID
- 薪水:比較不同城市、和所屬領域的薪水區別
- 工作年限:從時間軸上對比薪資漲幅
三、數據清洗
數據清洗即數據預處理,目的是去掉無效、重複數據,以取得符合我們要求的數據。
數據清洗的基本步驟:
1、選擇子集
只選擇對數據分析有意義的欄位,無意義的欄位選擇隱藏,即隱藏不需要分析的列(儘量不刪,保證數據的完整性)。這裡隱藏公司ID和公司全名,保留職位ID和公司簡稱。
2、列名重命名
將不合適的列名更改為我們容易理解的形式。
3、刪除重複值
對重複數據進行刪除,這裡我們對【職場ID】列進行刪除重複值處理:
4、缺失值處理
先檢查數據是否存在缺失值,先查看完整數據列的計數:
再選擇其他列查看是否缺失數據:
可以看出【城市】這一列缺失2條數據。
一般對缺失值的處理有4種方法,根據情況靈活使用:
- 通過人工手動補全(缺失值較少,並且可以根據其他信息確定該值)
- 刪除缺失的數據(無法判斷該位置填寫何值,或者刪除的數據對分析無大的影響
- 用平均值代替缺失值
- 用統計模型計算出的值去代替缺失值
這裡對【城市】這一列的處理方法:
由於缺失數據較少,這裡選用人工手動補全,使用Ctrl+Eneter快捷鍵,在不連續的單元格中同時輸入同一個數據或公式時很好用:
5、一致化處理
對數據進行統一的命名和處理。比如數據中的公司的所屬領域是「企業服務,數據服務」,對該列數據進行拆分。
步驟如圖:
然後我們將薪水處理成【最低薪水】、【最高薪水】、【平均薪水】,用於存放清洗後的薪水數據,利用函數實現:
FIND函數的意思是查找一個字符串在另一個字符串中出現的起始位置,用FIND 函數查找分隔符【k】或者【-】。
FIND函數用來對原始數據中某個字符串進行定位,以確定其位置。FIND函數進行定位時,總是從指定位置開始,返回找到的第一個匹配字符串的位置,而不管其後是否還有相匹配的字符串。
LEFT函數(從左開始截取字符串),MID函數(從中間截取字符串),Len函數(計算字符串長度),函數具體用法可以在百度上查。
利用LEFT函數截取最低薪水:
6、數據排序
我們對【平均薪水】這一列進行降序排序:
7、異常值處理
使用數據透視表處理表格:
此時發現【職位名稱】中有職位不屬於數據分析:
這些異常值需要去掉,應返回原表重新篩查。
步驟:
- 在原表【職位名稱】列後插入新的列命名為「數據分析職位名稱」;
- 在下方空白單元格插入函數=IF(COUNT(FIND({"數據運營","數據分析","分析師"},L2)),"是","否");
- 雙擊單元格右下方進行自動填充;
- 使用篩選功能,選擇「是」,過濾掉異常值。
四、構建模型及數據可視化
1、在哪些城市找到數據分析師工作的機會比較大?
以城市為行標籤,工作年限要求為列標籤,數據透視分析不同城市對不同年限的數據分析師的需求情況。
步驟:全選--選項卡,數據透視圖----將數據透視表欄位中的【城市】拖入到行,將【工作年限要求】拖入到列,再將【城市】拖入到值中:
再點選表格中左上角行標籤---其他排序選項---降序排序--計數項:城市
最後將數值按列匯總的百分比顯示數據:
將值按行匯總百分比顯示數據:
結論:從數據透視表可以看出,在北京數據分析的崗位最多,往後是上海、深圳、杭州、廣州;按工作年限要求來看,3-5年的需求量最大,其次是1-3年,這說明數據分析對年輕人需求將更多。
2、數據分析師的薪水如何?
首先,安裝EXCEL 的分析工具庫功能:選項卡,文件--選項---加載項---管理,選擇 EXCEL 加載項---轉到---勾選 分析工具庫---確定。
操作步驟如下圖:
以城市為行標籤,平均薪水為列標籤,數據透視表分析城市與平均薪水的關係:
結論:從上面數據透視結果可以看出,深圳的數據分析師平均薪水最高,其次是北京,上海,杭州。
3、根據工作經驗的不同,薪酬是怎樣變化的?
以工作年限要求行標籤,平均薪水為列標籤,數據透視分析工作年限與平均薪水的關係:
結論:從上面數據透視結果可以看出,隨著工作經驗的增長,數據分析師的薪酬也在不斷增加。
總結:
綜合上面三個數據透視結果,我們可以得到以下分析結論:
- 數據分析這一崗位,有大量的工作機會集中在北上廣深以及新一線城市,如果將來去這些城市找工作,可以提高求職成功的條件機率。
- 從待遇上看,數據分析師留在深圳發展是個不錯的選擇,其次是北京、上海。
- 數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-5年。
- 對於數據分析師來說,5年似乎是個瓶頸期,如果在5年之內沒有提升自己的能力,大概以後的競爭壓力會比較大。
- 隨著經驗的提升,數據分析師的薪酬也在不斷提高,10年以上工作經驗的人,能獲得相當豐厚的薪酬。
有關數據分析的系統知識,可以關注我的公眾號「數據分析不是個事兒」回復【數據分析】,有30篇文章系統講解數據分析從入門到進階。