1.簡要介紹PyTorch、張量和NumPy

讓我們快速回顧一下第一篇文章中涉及的內容。我們討論了PyTorch和張量的基礎知識，還討論了PyTorch與NumPy的相似之處。

PyTorch是一個基於python的庫，提供了以下功能:

用於創建可序列化和可優化模型的TorchScript
以分布式訓練進行並行化計算
動態計算圖，等等

PyTorch中的張量類似於NumPy的n維數組，也可以與gpu一起使用。在這些張量上執行操作幾乎與在NumPy數組上執行操作類似。這使得PyTorch非常易於使用和學習。

在本系列的第1部分中，我們構建了一個簡單的神經網絡來解決一個案例研究。使用我們的簡單模型，我們在測試集中獲得了大約65%的基準準確度。現在，我們將嘗試使用卷積神經網絡來提高這個準確度。

2.為什麼選擇卷積神經網絡(CNNs)?

在我們進入實現部分之前，讓我們快速地看看為什麼我們首先需要CNNs，以及它們是如何工作的。

我們可以將卷積神經網絡(CNNs)看作是幫助從圖像中提取特徵的特徵提取器。

在一個簡單的神經網絡中，我們把一個三維圖像轉換成一維圖像，對吧?讓我們看一個例子來理解這一點:

你能認出上面的圖像嗎?這似乎說不通。現在，讓我們看看下面的圖片:

我們現在可以很容易地說，這是一隻狗。如果我告訴你這兩個圖像是一樣的呢?相信我，他們是一樣的!唯一的區別是第一個圖像是一維的，而第二個圖像是相同圖像的二維表示

空間定位

人工神經網絡也會丟失圖像的空間方向。讓我們再舉個例子來理解一下:

你能分辨出這兩幅圖像的區別嗎?至少我不能。由於這是一個一維的表示，因此很難確定它們之間的區別。現在，讓我們看看這些圖像的二維表示:

在這裡，圖像某些定位已經改變，但我們無法通過查看一維表示來識別它。

這就是人工神經網絡的問題——它們失去了空間定位。

大量參數

神經網絡的另一個問題是參數太多。假設我們的圖像大小是28283 -所以這裡的參數是2352。如果我們有一個大小為2242243的圖像呢?這裡的參數數量為150,528。

這些參數只會隨著隱藏層的增加而增加。因此，使用人工神經網絡的兩個主要缺點是:

丟失圖像的空間方向
參數的數量急劇增加

那麼我們如何處理這個問題呢?如何在保持空間方向的同時減少可學習參數?

這就是卷積神經網絡真正有用的地方。CNNs有助於從圖像中提取特徵，這可能有助於對圖像中的目標進行分類。它首先從圖像中提取低維特徵(如邊緣)，然後提取一些高維特徵(如形狀)。

我們使用濾波器從圖像中提取特徵，並使用池技術來減少可學習參數的數量。

在本文中，我們不會深入討論這些主題的細節。如果你希望了解濾波器如何幫助提取特徵和池的工作方式，我強烈建議你從頭開始學習卷積神經網絡的全面教程。

3.問題:識別服裝

理論部分已經鋪墊完了，開始寫代碼吧。我們將討論與第一篇文章相同的問題陳述。這是因為我們可以直接將我們的CNN模型的性能與我們在那裡建立的簡單神經網絡進行比較。

你可以從這裡下載「識別」Apparels問題的數據集。

https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-apparels/?utmsource=blog&utmmedium=building-image-classification-models-cnn-pytorch

讓我快速總結一下問題陳述。我們的任務是通過觀察各種服裝形象來識別服裝的類型。我們總共有10個類可以對服裝的圖像進行分類:

數據集共包含70,000張圖像。其中60000張屬於訓練集，其餘10000張屬於測試集。所有的圖像都是大小(28*28)的灰度圖像。數據集包含兩個文件夾，一個用於訓練集，另一個用於測試集。每個文件夾中都有一個.csv文件，該文件具有圖像的id和相應的標籤;

準備好開始了嗎?我們將首先導入所需的庫:

加載數據集

現在，讓我們加載數據集，包括訓練，測試樣本:

該訓練文件包含每個圖像的id及其對應的標籤
另一方面，測試文件只有id，我們必須預測它們對應的標籤
樣例提交文件將告訴我們預測的格式

我們將一個接一個地讀取所有圖像，並將它們堆疊成一個數組。我們還將圖像的像素值除以255，使圖像的像素值在[0,1]範圍內。這一步有助於優化模型的性能。

讓我們來加載圖像:

如你所見，我們在訓練集中有60,000張大小(28,28)的圖像。由於圖像是灰度格式的，我們只有一個單一通道，因此形狀為(28,28)。

現在讓我們研究數據和可視化一些圖像:

以下是來自數據集的一些示例。我鼓勵你去探索更多，想像其他的圖像。接下來，我們將把圖像分成訓練集和驗證集。

創建驗證集並對圖像進行預處理

我們在驗證集中保留了10%的數據，在訓練集中保留了10%的數據。接下來將圖片和目標轉換成torch格式:

同樣，我們將轉換驗證圖像:

我們的數據現在已經準備好了。最後，是時候創建我們的CNN模型了!

4.使用PyTorch實現CNNs

我們將使用一個非常簡單的CNN架構，只有兩個卷積層來提取圖像的特徵。然後，我們將使用一個完全連接的Dense層將這些特徵分類到各自的類別中。

讓我們定義一下架構:

現在我們調用這個模型，定義優化器和模型的損失函數:

這是模型的架構。我們有兩個卷積層和一個線性層。接下來，我們將定義一個函數來訓練模型:

最後，我們將對模型進行25個epoch的訓練，並存儲訓練和驗證損失:

可以看出，隨著epoch的增加，驗證損失逐漸減小。讓我們通過繪圖來可視化訓練和驗證的損失:

啊，我喜歡想像的力量。我們可以清楚地看到，訓練和驗證損失是同步的。這是一個好跡象，因為模型在驗證集上進行了很好的泛化。

讓我們在訓練和驗證集上檢查模型的準確性:

訓練集的準確率約為72%，相當不錯。讓我們檢查驗證集的準確性:

正如我們看到的損失，準確度也是同步的-我們在驗證集得到了72%的準確度。

為測試集生成預測

最後是時候為測試集生成預測了。我們將加載測試集中的所有圖像，執行與訓練集相同的預處理步驟，最後生成預測。

所以，讓我們開始加載測試圖像:

現在，我們將對這些圖像進行預處理步驟，類似於我們之前對訓練圖像所做的:

最後，我們將生成對測試集的預測:

用預測替換樣本提交文件中的標籤，最後保存文件並提交到排行榜:

你將在當前目錄中看到一個名為submission.csv的文件。你只需要把它上傳到問題頁面的解決方案檢查器上，它就會生成分數。連結:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-apparels/?utmsource=blog&utmmedium=building-image-classification-models-cnn-pytorch

我們的CNN模型在測試集上給出了大約71%的準確率，這與我們在上一篇文章中使用簡單的神經網絡得到的65%的準確率相比是一個很大的進步。

5.結尾

在這篇文章中，我們研究了CNNs是如何從圖像中提取特徵的。他們幫助我們將之前的神經網絡模型的準確率從65%提高到71%，這是一個重大的進步。

你可以嘗試使用CNN模型的超參數，並嘗試進一步提高準確性。要調優的超參數可以是卷積層的數量、每個卷積層的濾波器數量、epoch的數量、全連接層的數量、每個全連接層的隱藏單元的數量等。

使用PyTorch建立圖像分類模型

目錄

1.簡要介紹PyTorch、張量和NumPy

2.為什麼選擇卷積神經網絡(CNNs)?

3.問題:識別服裝

4.使用PyTorch實現CNNs

5.結尾

OpenCV-Python 級聯分類器訓練 | 六十三

OpenCV-Python 高動態範圍

MMDetection 安裝 | 一

OpenCV-Python OpenCV中的K-Means聚類 | 五十八

Transformers 模型示例 | 六

OpenCV-Python 使用SVM

OpenCV-Python 理解SVM | 五十五

OpenCV-Python 使用OCR手寫數據集運行KNN | 五十四

OpenCV-Python 理解K近鄰 | 五十三

「資源福利」OpenCV最新中文版官方教程來了

OpenCV-Python 對極幾何介紹

使用Keras可視化LSTM

OpenCV-Python 進行相機校準

OpenCV-Python 特徵匹配 + 單應性查找對象

OpenCV-Python中的BRIEF(二進位的魯棒獨立基本特徵)

使用PyTorch建立你的第一個文本分類模型

使用 OpenCV-Python 進行交互式前景提取

OpenCV-Python SIFT尺度不變特徵變換 | 三十九

通過帶Flask的REST API在Python中部署PyTorch

OpenCV-Python 理解特徵 | 三十六

在C++中加載TorchScript模型

TorchScript簡介

使用OpenCV+Python實現模板匹配

OpenCV-Python 直方圖-3：二維直方圖 | 二十八