歡迎來到專欄《Python進階》。在這個專欄中,我們會講述Python的各種進階操作,包括Python對文件、數據的處理,Python各種好用的庫如NumPy、Scipy、Matplotlib、Pandas的使用等等。我們的初心就是帶大家更好的掌握Python這門語言,讓它能為我所用。
今天是《Python進階》專欄的第五期,在本期中,我們將主要介紹如何使用Matplotlib這個第三方庫進行數據可視化。
作者 | 湯興旺
編輯 | 言有三
「美麗的可視化可反映出所描述數據的品質,顯式地揭示出源數據中內在和隱式的屬性和關係,讀者了解了這些屬性和關係之後,可以因此而獲取新的知識、洞察力和樂趣。」
以上是書籍《數據可視化之美》對可視化的解讀。說的很有道理,相信大家聽說過「一圖勝千言」這句話,當看到一堆數據時,若你對數字不夠敏感,肯定會費勁半天找不到規律,但若用一張圖來表達時,相信你一定會一目了然。下面我就大家使用Matplotlib對數據進行美麗的可視化。
1 Matplotlib 的基本操作
在Matplotlib中有三個基本概念,分別是Figure、axes和axis。
下面我來詳細解釋下這三個基本概念。在Matplotlib中,figure你可以理解成一個畫布或者一個窗口,axes是指畫布上的一個區域,你畫的圖就在這個區域上。你可以把figure看成一張白紙,在紙上的任何區域畫圖,確定畫圖區域並確定作圖的一些方式的東西的就是axes,即坐標對象(坐標系)。
由於在一張白紙上可以有幾個區域進行畫圖,另外畫圖區域必須存在於白紙上才有意義。因此在figure上可有多個axes,axes必在figure上,要畫圖必有axes。
另外axis就是我們平時常見的坐標軸,如x軸、y軸等。
對於上面的概念我們可以用下圖進行直觀理解。
通過上面的講解,我們知道在Matplotlib中的圖像都位於figure畫布中,因此可以使用plt.figure創建一個新畫布。如果要在一個圖表中繪製多個子圖,可使用subplot。
話不多說,我們直接看下面代碼:
import matplotlib.pyplot as plt
import numpy as np
from numpy.random import randn
fig = plt.figure() # 創建一個新的 Figure
ax1 = fig.add_subplot(2, 2, 1) # 不能通過空 Figure 繪圖,必須用 add_subplot 創建一個或多個 subplot 才行
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)
ax4 = fig.add_subplot(2, 2, 4)
plt.plot(randn(50).cumsum(),'k--') # 這條沒有指定具體 subplot 的繪圖命令會在最後一個用過的 subplot 上進行繪製
_ = ax1.hist(randn(100), bins=20, color='k', alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3*randn(30))
首先,創建了一個figure,然後在這個figure上畫了四個區域,即四個子圖,分別是直方圖、三點圖、折線圖,還有一個是只有坐標軸的圖。
如果我想要畫多個figure應該怎麼辦呢?實際上如果要同時繪製多個圖表,可以給figure()傳遞一個整數參數指定figure對象的序號。如下例所示:
import matplotlib.pyplot as plt
import numpy as np
plt.figure(1) # 創建圖表1
plt.figure(2) # 創建圖表2
ax1 = plt.subplot(211) # 在圖表2中創建子圖1
ax2 = plt.subplot(212) # 在圖表2中創建子圖2
x = np.linspace(0, 3, 100)
for i in range(5):
plt.figure(1) # 選擇圖表1
plt.plot(x, np.exp(i * x / 3))
plt.sca(ax1) # 選擇圖表2的子圖1
plt.plot(x, np.sin(i * x))
plt.sca(ax2) # 選擇圖表2的子圖2
plt.plot(x, np.cos(i * x))
plt.show()
執行完上面代碼後,如下圖。
2 Matplotlib的進階操作
在1中的兩個示例中,我們會發現手動創建figure,都使用了plt.figure()。如果沒有plt.figure()可以嗎?請看下面的示例:
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(-np.pi, 5*np.pi, num = 100)
y = np.sin(x)
plt.plot(x,y)
plt.show()
我們會發現這段代碼中,沒有plt.figure()也畫出了圖,WHY?難道前面誤導了大家?我在前面說過,若沒有figure就沒有axes!
當然這個鍋我不背,實際上這裡plt.plot()是通過plt.gca()獲得當前axes對象的ax,如果沒有會自動創建一個,可以理解為就是figure。然後再調用ax.plot方法實現真正的繪圖。
Matplotlib實際上是一套面向對象的繪圖庫,它所繪製的圖表中每個圖表元素,如線條 Line2D、文字Text、刻度等在內存中都有一個對象與之對應。為將面向對象的繪圖庫包裝成只使用函數的調用接口,pyplot模塊內部保存了當前圖表以及當前子圖等信息。當前的圖表和子圖可以使用plt.gcf()和plt.gca()獲得,分別表示"Get Current Figure"和"Get Current Axes"。在pyplot模塊中,許多函數都是對當前的figure或axes對象進行處理,比如說:
plt.plot()實際上會通過plt.gca()獲得當前的axes對象ax,然後再調用ax.plot()方法實現真正繪圖。
2.1 對圖進行裝扮
上面3個示例中均沒有展示圖例、標註等,下面我們通過下面的示例來分享如何對一個圖進行裝扮。
import matplotlib.pyplot as plt
import numpy as np
fig, ax1 = plt.subplots(figsize=(8, 4))
r = np.linspace(0, 10, 100)
a = 4 * np.pi * r ** 2 # area
v = (4 * np.pi / 3) * r ** 3 # volume
ax1.set_title("surface area and volume of a sphere", fontsize=16)
ax1.set_xlabel("radius [m]", fontsize=16)
ax1.plot(r, a, lw=2, color="blue")
ax1.set_ylabel(r"surface area ($m^2$)", fontsize=16, color="blue")
for label in ax1.get_yticklabels():
label.set_color("blue")
ax2 = ax1.twinx()
ax2.plot(r, v, lw=2, color="red")
ax2.set_ylabel(r"volume ($m^3$)", fontsize=16, color="red")
for label in ax2.get_yticklabels():
label.set_color("red")
fig.tight_layout()
plt.show()
在上面的示例中我們通過set.title()設置了圖的標題,通過set_xlabel和set_ylabel設置了y軸的標籤,另外也通過get_yticklabels()和get_xticklabels()設置了坐標軸上刻度的不同的屬性。
2.2、對圖的某個細節進行放大
平時我們在處理圖的時候,有時候需要對圖的局部細節進行查看,這時候就需要對細節進行放大,對於這個問題該怎麼解決呢?請看下面的案例:
import matplotlib.pyplot as plt
import numpy as np
import matplotlib as mpl
fig = plt.figure(figsize=(8, 4))
def f(x):
return 1 / (1 + x ** 2) + 0.1 / (1 + ((3 - x) / 0.1) ** 2)
def plot_and_format_axes(ax, x, f, fontsize):
ax.plot(x, f(x), linewidth=2)
ax.xaxis.set_major_locator(mpl.ticker.MaxNLocator(5))
ax.yaxis.set_major_locator(mpl.ticker.MaxNLocator(4))
ax.set_xlabel(r"$x$", fontsize=fontsize)
ax.set_ylabel(r"$f(x)$", fontsize=fontsize)
ax = fig.add_axes([0.1, 0.15, 0.8, 0.8], facecolor="#f5f5f5")
x = np.linspace(-4, 14, 1000)
plot_and_format_axes(ax, x, f, 18)
plt.show()
如果我想要對上圖的橫縱標在4附近的局部峰值進行放大查看,即下圖圈紅部分進行放大查看,應該如何操作呢?
代碼如下:
import matplotlib.pyplot as plt
import numpy as np
import matplotlib as mpl
fig = plt.figure(figsize=(8, 4))
def f(x):
return 1 / (1 + x ** 2) + 0.1 / (1 + ((3 - x) / 0.1) ** 2)
def plot_and_format_axes(ax, x, f, fontsize):
ax.plot(x, f(x), linewidth=2)
ax.xaxis.set_major_locator(mpl.ticker.MaxNLocator(5))
ax.yaxis.set_major_locator(mpl.ticker.MaxNLocator(4))
ax.set_xlabel(r"$x$", fontsize=fontsize)
ax.set_ylabel(r"$f(x)$", fontsize=fontsize)
ax = fig.add_axes([0.1, 0.15, 0.8, 0.8], facecolor="#f5f5f5")
x = np.linspace(-4, 14, 1000)
plot_and_format_axes(ax, x, f, 18)
x0, x1 = 2.5, 3.5
ax = fig.add_axes([0.5, 0.5, 0.38, 0.42], facecolor='none')
x = np.linspace(x0, x1, 1000)
plot_and_format_axes(ax, x, f, 14)
plt.show()
代碼區紅色部分即實現放大部分的代碼。實際是添加了另外一個axes,只不過這個axes包含在主圖的axes中。
總結
本期我們介紹了Matplotlib中的一些應用,希望您能藉助這個工具畫出精美的圖表。
下期預告:Python庫Pandas的高級應用