數據之美:可視化會給你意想不到的答案

2020-08-25     讀芯術

原標題:數據之美:可視化會給你意想不到的答案

全文共3308字,預計學習時長9分鐘

圖源:unsplash

作為數據科學家或分析師、人工智慧或機器學習工程師,我們大部分的工作都是向同事或主管解釋事物,報告個人的工作和發現,數據可視化已經成為我們生活中必不可少的一部分。

而對於不了解或不感興趣的人來說,原始數據就是長串隨機數字、圖像或音頻文件。我們的工作是讓這些人理解數據,並引導他們從這些數據中作出有用的推論。

羅伯特·科薩拉說:「數據可視化是挖掘和利用數據的關鍵。即便是最簡單的可視化,也能夠消除數據提供者對自己的數據被低估、誤解或歪曲的憂慮。數據可視化能夠改變人們對數據的理解方式,提高大眾對數據的興趣,並推動更多更好的數據開發。」

我們用數據描述歷史和未來,但如果沒有可視化,在外行眼裡就和預言家或古老先知無甚區別。本文將帶你了解數據可視化的重要性,分享一些專業的可視化技巧,以及一些創建精美可視化的工具、庫和軟體。

數據可視化的定義及其重要性

數據可視化是將數據視覺化或圖像化的過程。這個過程很重要,它可以通過圖像表達不同數據之間的關聯。人腦善於理解信息圖表,而電子表格、CSV文件或資料庫中上百行的原始數據則往往令人焦頭爛額。

數據可視化可以讓趨勢和模式顯而易見,這在數據科學的探索性數據分析階段尤為重要。數據可視化不僅對數據科學家、分析師和人工智慧/機器學習(AI/ML)工程師很重要,在技術領域內外所有和數據打交道的人都應該學習這一技能。

數據可視化的應用

圖源:unsplash

正如約翰·圖基所說:圖像最大的價值在於迫使我們關注到意想不到的東西。

數據可視化可以應用於幾乎所有領域,每當需要洞察或推斷數據時,就離不開數據可視化。但是,數據可視化並不僅僅是為了美觀。以圖像形式展示數據有如下幾個原因:

· 尋找關聯:在沒有數據可視化的情況下,嘗試確定兩個或多個事物之間的相關性是非常困難的。在數據分析中尋找關聯是非常關鍵的,因此,若想對數據做出最深刻的理解,數據可視化是至關重要的。

· 觀察變化:通過數據可視化,可以使用時間序列圖觀察既定時間內的趨勢或模式變化。這有助於回顧歷史數據,對未來可能發生的事件做出關鍵的預測或假設,這可以幫助組織或個人調整產品或服務。

· 識別頻率:頻率識別是視覺圖表最基本的作用之一。它有助於我們確定自己的辦事頻率,以便知道要在哪裡投入更多的努力、時間和精力,而在哪裡可以放鬆。企業也可以使用頻率圖表來核對並洞悉特定時間的銷量,調整營銷流程,以滿足消費者的需求。

可視化圖表類型

既然知道了什麼是可視化,那麼就必須了解各種可視化圖表的類型,以便講述數據背後的故事。可視化圖表有成百上千種,有些我們很可能永遠不會碰到。我將分享幾種我所了解的熱門圖表,排名不以重要性和興趣為先後。

· 折線圖:又稱線條圖、線狀圖或曲線圖,是一種將一系列數據點(即「標記」)用直線段連接來呈現信息的圖表。它是許多領域中常見的一種基本圖表類型。它與散點圖類似,但是它的測量點是有序的(通常按x軸排序),並用直線段連接。折線圖通常用於將數據在一段時間(時間序列)內的趨勢可視化,因此,線條通常是按時間順序畫的。在這種情況下,它們被稱為趨勢圖。

· 條形圖:亦稱條狀圖,是一種用矩形條表示分類數據的圖表,矩形條的高度或長度與其所代表的數值成正比。條形圖可以橫置或縱置,縱置時也稱為柱形圖。條形圖可比較不同類別的離散數值。一個軸表示比較的類別,另一個軸顯示數值。一些條形圖有多組聚合的矩形條,可顯示多個變量的值。

· 直方圖:直方圖可以大致顯示數量分布的情況。它形似條形圖,但衡量的是頻數而非走勢。

· 散點圖:散點圖是一種圖表或數學圖形,通常使用笛卡爾坐標系(Cartesian coordinate,又稱直角坐標系)來顯示兩個變量下的兩組數據。如果為數據點編碼(設置顏色/形狀/大小),則可以添加其他變量。數據顯示為一組點,每個點都有兩個變量,分別確定其在水平軸和垂直軸上的位置。

· 餅圖/圓環圖:餅圖是一種圓形的統計圖,它被分成多個區塊來說明數字比例。在餅圖中,每個區塊的弧長(以及相應的中心角和面積)與其所代表的數值成正比。雖然餅圖因形似一個被切成塊的餅而得名,但它有多種呈現方式,比如圓環圖就是一個空心的餅圖,不僅能清楚地顯示區塊或比例,還美化了傳統的餅圖樣式。

· 熱力圖:熱力圖是一種數據可視化技術,這種二維圖像用顏色顯示某現象的量級。顏色可能有色調或深淺的不同,使讀者對某現象的聚集情況,或其在空間上的變化情況一目了然。

圖源:unsplash

· 地圖:利用包含位置信息的數據,可以繪製精美的可視化世界地圖。這類地圖用顏色編碼,以較暗的陰影顯示強度更高的區域,反之亦然。它非常適用於可視化病毒的傳播情況,廣泛應用於新冠病毒影響區域的可視化。

數據可視化的注意事項

「通過可視化,我們把信息變成了一個可以用眼睛探索的景觀,一種信息地圖。當你迷失在信息里時,信息地圖能有所幫助。」——大衛·麥坎德利斯

有效的數據可視化是數據分析的最後關鍵一步,否則你可能會丟失重要的理解和信息。有很多事是尋求專業可視化的人必須知道的:

· 選擇最合適的可視化類型:在可用於數據可視化的多種圖表中,你需要選擇出最能代表數據的圖表。如果想從數據中獲得有用的見解,這一點非常重要。這就意味著你必須善於挑選顏色,色彩編碼的可視化對於輕易地識彆強度、模式和群集有很大幫助。

· 運用對比:這也許是最簡單的數據可視化方法,但其用處卻不可小覷。在展示自己的信息和見解時,你應該儘可能多地進行具體的比較。同時展示兩幅圖表,每個圖表都顯示了同一信息在特定時間段內的對比版本,例如並排呈現的2016年和2017年的月度銷售記錄,這樣就能清晰地指出該數據的影響,突出優勢、劣勢、趨勢、峰值和低谷,以便斟酌並行動。

· 了解受眾:在進行可視化時,確定需要從中得出推論或見解的目標受眾。誰會看這些數據?他們面臨哪些挑戰,有哪些障礙阻止他們克服這些挑戰?了解這些,並努力構建有足夠吸引力的可視化,使受眾能夠最大限度地洞察或理解數據。

最佳的數據可視化工具和軟體

只有運用好的工具或軟體,才會有好的可視化效果。下面推薦幾款個人使用過的最好的工具和軟體:

圖源:unsplash

· 開源庫:有很多免費的程式語言開源庫可以用來做數據可視化,它們通常能輕鬆上手,並且快速操作,因其靈活性而備受喜愛,是多數程式設計師首選的可視化方法。熱門的開源庫包括Matplotlib、Seaborn、Bokeh、Plotly和GGPlot。

· 電子表格應用程式:雖然總被忽略,但是像Microsoft Excel和Google Sheets這樣的電子表格應用程式有內置的可視化工具,確實非常適合以圖形或視覺形式展示數據。對於那些幾乎沒有編程技能,也無力負擔可視化工具的人來說,這應該是最好的選擇。

· Tableau:若要製作各種高級而美觀的可視化和分析儀錶盤,Tableau是最值得推薦的軟體。使用Tableau可以輕鬆快捷地製作精美的氣泡圖、餅圖、折線圖、熱力圖或地球投影圖。Tableau易於使用,有許多教程可以指導你如何更好地使用它來讓工作效率最大化。

· Power BI:Power BI是微軟的一項業務分析服務。它旨在提供交互式可視化和商業智能功能。其介面簡潔,終端用戶可以創建自己的報表和儀錶盤。

圖源:unsplash

數據可視化不是錦上添花的「外衣」,而是講好故事的關鍵,希望本文分享的方法和資源能讓你利用可視化更好地描述數據。

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載,請後台留言,遵守轉載規範

文章來源: https://twgreatdaily.com/zh-tw/kzVpJ3QBLq-Ct6CZmGRh.html