最近有個朋友找到我,說是想要轉行做數據分析師,但是卻不知道在數據分析的求職環境怎麼樣?而且自己什麼工具都不會,python、R語言什麼的也都是淺嘗輒止,擔心自己一轉行就失業。
這也是很多想要轉行數據分析的人的困惑,其實數據分析入門並不難,只要掌握了Excel數據分析的基礎,基本上就已經拿到了數據分析的敲門磚,Excel既是基礎也是關鍵,是邁向數據分析的第一步。
所以我就從網上爬了一些求職網站上關於數據分析崗位的情況,用Excel做一次完整又簡單的數據分析實操,幫助大家能夠儘快學會數據分析的基礎。
首先要明確這次數據分析的目的是什麼?也就是為了解決什麼問題?(提出的問題要能用很明確的指標和數字來衡量,切勿模稜兩可)
提出問題:
1、在哪些城市找到數據分析師工作的機會比較大?
2、數據分析師的薪水如何?
3、根據工作經驗的不同,薪酬是怎樣變化的?
接下來要理解表格中的各個欄位(列名)表示什麼意思:
數據清洗即數據預處理,目的是去掉無效、重複數據,以取得符合我們要求的數據。
數據清洗的基本步驟:
1、選擇子集
只選擇對數據分析有意義的欄位,無意義的欄位選擇隱藏,即隱藏不需要分析的列(儘量不刪,保證數據的完整性)。這裡隱藏公司ID和公司全名,保留職位ID和公司簡稱。
2、列名重命名
將不合適的列名更改為我們容易理解的形式。
3、刪除重複值
對重複數據進行刪除,這裡我們對【職場ID】列進行刪除重複值處理:
4、缺失值處理
先檢查數據是否存在缺失值,先查看完整數據列的計數:
再選擇其他列查看是否缺失數據:
可以看出【城市】這一列缺失2條數據。
一般對缺失值的處理有4種方法,根據情況靈活使用:
這裡對【城市】這一列的處理方法:
由於缺失數據較少,這裡選用人工手動補全,使用Ctrl+Eneter快捷鍵,在不連續的單元格中同時輸入同一個數據或公式時很好用:
5、一致化處理
對數據進行統一的命名和處理。比如數據中的公司的所屬領域是「企業服務,數據服務」,對該列數據進行拆分。
步驟如圖:
然後我們將薪水處理成【最低薪水】、【最高薪水】、【平均薪水】,用於存放清洗後的薪水數據,利用函數實現:
FIND函數的意思是查找一個字符串在另一個字符串中出現的起始位置,用FIND 函數查找分隔符【k】或者【-】。
FIND函數用來對原始數據中某個字符串進行定位,以確定其位置。FIND函數進行定位時,總是從指定位置開始,返回找到的第一個匹配字符串的位置,而不管其後是否還有相匹配的字符串。
LEFT函數(從左開始截取字符串),MID函數(從中間截取字符串),Len函數(計算字符串長度),函數具體用法可以在百度上查。
利用LEFT函數截取最低薪水:
6、數據排序
我們對【平均薪水】這一列進行降序排序:
7、異常值處理
使用數據透視表處理表格:
此時發現【職位名稱】中有職位不屬於數據分析:
這些異常值需要去掉,應返回原表重新篩查。
步驟:
1、在哪些城市找到數據分析師工作的機會比較大?
以城市為行標籤,工作年限要求為列標籤,數據透視分析不同城市對不同年限的數據分析師的需求情況。
步驟:全選--選項卡,數據透視圖----將數據透視表欄位中的【城市】拖入到行,將【工作年限要求】拖入到列,再將【城市】拖入到值中:
再點選表格中左上角行標籤---其他排序選項---降序排序--計數項:城市
最後將數值按列匯總的百分比顯示數據:
將值按行匯總百分比顯示數據:
結論:從數據透視表可以看出,在北京數據分析的崗位最多,往後是上海、深圳、杭州、廣州;按工作年限要求來看,3-5年的需求量最大,其次是1-3年,這說明數據分析對年輕人需求將更多。
2、數據分析師的薪水如何?
首先,安裝EXCEL 的分析工具庫功能:選項卡,文件--選項---加載項---管理,選擇 EXCEL 加載項---轉到---勾選 分析工具庫---確定。
操作步驟如下圖:
以城市為行標籤,平均薪水為列標籤,數據透視表分析城市與平均薪水的關係:
結論:從上面數據透視結果可以看出,深圳的數據分析師平均薪水最高,其次是北京,上海,杭州。
3、根據工作經驗的不同,薪酬是怎樣變化的?
以工作年限要求行標籤,平均薪水為列標籤,數據透視分析工作年限與平均薪水的關係:
結論:從上面數據透視結果可以看出,隨著工作經驗的增長,數據分析師的薪酬也在不斷增加。
綜合上面三個數據透視結果,我們可以得到以下分析結論:
有關數據分析的系統知識,可以關注我的公眾號「數據分析不是個事兒」回復【數據分析】,有30篇文章系統講解數據分析從入門到進階。