數據分析師必備的9大技能,大多數人只知道一半

2019-10-18     數據分析不是個事兒

昨天有位剛入行數據分析的朋友跟我吐槽,自己入門到現在只會用excel做做分析圖表,但是感覺越做越沒有價值,數據分析似乎就是業務數據的分析員,不知道該如何提升自己。

這是因為他沒有完全把數據分析的價值挖掘出來,數據分析是為了通過對數據現象的查看來完成對產品、營銷策略、運營策略的優化,不僅是對業務,更重要的是要掌握數據分析的各種技能,從能力增長上突破職業的天花板。

根據我總結的經驗,一個合格的、高級的大數據分析師必須要掌握以下9種技能:

  1. 統計分析:大數定律、抽樣推測規律、秩和檢驗、回歸、預測;
  2. 可視化輔助工具:excel、BI工具、python
  3. 大數據處理框架:Hadoop、storm、spark
  4. 資料庫:SQL、MySql、DB
  5. 數據倉庫:SSIS、SSAS
  6. 數據挖掘工具:Matlab、R語言、python
  7. 人工智慧:機器學習
  8. 挖掘算法:數據結構、一致性
  9. 程式語言:Java、python

一、統計分析

眾所周知,統計學是數據分析的基石。學了統計學,你會發現很多時候的分析並不那麼準確,比如很多人都喜歡用平均數去分析一個事物的結果,但是這往往是粗糙的的。而統計學可以幫助我們以更科學的角度看待數據,逐步接近這個數據背後的「真相」。

大部分的數據分析,都會用到統計方面的以下知識,可以重點學習:

  • 基本的統計量:均值、中位數、眾數、方差、標準差、百分位數等
  • 機率分布:幾何分布、二項分布、泊松分布、正態分布等
  • 總體和樣本:了解基本概念,抽樣的概念
  • 置信區間與假設檢驗:如何進行驗證分析
  • 相關性與回歸分析:一般數據分析的基本模型

了解統計學的原理之後,你不一定能夠通過工具實現,那麼你需要去對應的找網上找相關的實現方法,也可以看書。

先推薦一本非常簡單的:吳喜之-《統計學·從數據到結論》;也可以看《商務與經濟統計》,結合業務能更容易理解。

另外,如果想要更進一步,請掌握一些主流算法的原理,比如線性回歸、邏輯回歸、決策樹、神經網絡、關聯分析、聚類、協同過濾、隨機森林。

再深入一點,還可以掌握文本分析、深度學習、圖像識別等相關的算法。關於這些算法,不僅需要了解其原理,你最好可以流暢地闡述出來,還需要你知曉其在各行業的一些應用場景。如果現階段不是工作剛需,可不作為重點。

二、可視化輔助工具

數據可視化主要通過編程和非編程兩類工具實現,對於普通行業的數據分析師來說,不需要掌握編程類的可視化工具,學習麻煩而且沒有必要,掌握下面幾種即可:

1、excel

別以為EXCEL只會處理表格,你可以把它當成資料庫,也可以把它當成IDE,甚至可以把它當成數據可視化工具來使用。它可以創建專業的數據透視表和基本的統計圖表,但由於默認設置了顏色、線條和風格,使其難以創建用於看上去「高大上」視覺效果。儘管如此,我仍然推薦你使用Excel。

2、BI工具

近幾年冒出來的BI之秀,如TB、qlk都強調可視化,一改傳統BI工具SAP BO、IBM家的cognos(不過近幾年貌似都在研發雲BI)。這裡不談開源,還沒見到能成熟應用的BI。成熟的BI工具如 FineBI (國內)和 Tableau(國外),都很推薦。

tableau可視化探索分析很贊,數據量多的時候性能較差,企業用多並發價格貴。FineBI 國產帆軟,為數不多能占據世界領先地位的數據工具,重在數據處理性能和企業應用的複雜情況(市場步伐很快),自帶ETL,可視化還行,價格良心,個人用免費。

3、python

學過Python數據分析的朋友都知道,在可視化的工具中,有很多優秀的三方庫,比如matplotlib,seaborn,plotly,Boken,pyecharts等等,這些可視化庫都有自己的特點,在實際應用中也廣為大家使用。

如果你不知道數據分析該學什麼工具,就直接學python吧,萬能語言學了不虧。

三、大數據處理框架

如果你想脫離普通業務的束縛,做一名大數據分析師,首先就要了解大數據框架的基礎。

大數據處理框架負責對大數據系統中的數據進行計算,數據包括從持久存儲中讀取的數據或通過消息隊列等方式接入到系統中的數據,而計算則是從數據中提取信息的過程。

我們按照對所處理的數據形式和得到結果的時效性進行分類,分為批處理系統、流處理系統和混合式系統。典型的批處理系統就是Apache Hadoop;典型的流處理系統有Apache Storm,Apache Samza;混合處理系統比如Apache Spark,Apache Flink。

四、資料庫

數據分析是分等級的,有隻負責清洗數據的,比較少,工作也比較簡單;還有就是負責建模的,掌握常用的十多個機器學習算法就能是二流的了,要做到一流的就要熟練掌握各個算法的本質了,也就是要掌握資料庫的基礎。

sql在資料庫里是核心技術,在數據分析學習時一定要重視這些內容,主要以MySQL為主,MySQL就是網際網路行業的通用標準。

當然,如果你想要快速掌握資料庫的知識,一定要進行系統化的學習以及大量的練習,在網上尋找一些資料庫的練習題,先從簡單的題開始,循序漸進,這樣才能夠慢慢的深入資料庫的核心知識。

五、數據倉庫/商業智能

在進行數據分析的時候,我們總會遇到一些名詞,比如數據倉庫。數據倉庫是數據分析中一個比較重要的東西,數據倉庫是一個面向主題的、集成的、相對穩定的、反應歷史變化的數據集合。

數據分析中的工作最重要的就是數據處理工作,根據我做數據分析的經驗,在整個數據分析流程中,用於數據處理的時間往往要占據70%以上,而數據倉庫具有集成、穩定、高質量等特點,基於數據倉庫為數據分析提供數據,往往能夠更加保證數據質量和數據完整性。

六、數據挖掘工具

在做數據分析時,數據挖掘軟體是其中必不可少的工具之一。它是大多數商業智能計劃中的核心應用程式,數據挖掘軟體同樣也能夠從大量數據中提取洞察力。

直接說需要學習的語言:MATLAB、Python、R。

1、MATLAB

雖然偏學術性,但是好上手,上手以後就可以跑一些算法,提高一些信心和學習的樂趣。教材看官方手冊的Primer,然後就開始寫腳本和函數,如果有看不懂的直接百度、google或者help。

2、Python和R

這兩個放在一起,是因為網上關於這兩個的爭論太多了。我的順序是首先學python,其次再是R。首先python,先看《Head First Python》,簡單易懂,然後是《利用Python進行數據分析》和《機器學習實戰》。第一本書主要是利用Python做數據挖掘的,基本提到Python學習都會推薦這本。第二本是理解機器學習的佳作,書中用到的語言就是Python,一邊學語言,一邊理解機器學習。

七、人工智慧

嚴格意義上,人工智慧與數據分析有著明顯的界限,不屬於同一領域,因此這一條是針對大數據分析科學家來說的,當你的分析能力還比較低時,可以略過不看此章。

機器學習、人工智慧涵蓋的知識層面太廣太深,所以會建議採取 problem-based learning 的學習方式,先選定問題,然後找到資源來解問題,再更深入的去了解,解問題過程中,遇到的名詞與知識。

八、挖掘算法

很多人認為數據挖掘需要掌握複雜高深的算法,需要掌握技術開發,才能把數據挖掘分析做好,實際上並非這樣,其實算法並不難,只需要結合實際業務背景、以解決問題為導向就簡單很多了,主要包括分類算法,聚類算法,關聯分析,連接分析等,是學習數據挖掘必須要掌握的算法基礎。

九、程式語言

比如python、r語言、java等等,你該使用哪種語言用於數據分析?恐怕這還得「視情況而定」。

如果你對晦澀的統計運算進行繁重的數據分析工作,那麼你不青睞R才怪。如果你跨GPU進行NLP或密集的神經網絡處理,那麼Python是很好的選擇。如果想要一種加固的、面向生產環境的數據流解決方案,又擁有所有重要的操作工具,Java或Scala絕對是出色的選擇。

文章來源: https://twgreatdaily.com/zh-cn/C7Wg4W0BMH2_cNUgl4Aq.html