作者:Connor Shorten
編譯:ronghuaiyang
生成對抗網絡是深度學習中最有趣和最受歡迎的應用之一。這篇文章列出了10篇關於GANs的論文,這會給你一個很好的GAN的介紹,並以此為基礎理解最先進的論文。讓我們開始吧。
生成對抗網絡是深度學習中最有趣和最受歡迎的應用之一。這篇文章列出了10篇關於GANs的論文,這會給你一個很好的GAN的介紹,並以此為基礎理解最先進的論文。讓我們開始吧!
如果你對閱讀每篇論文的介紹不感興趣,這裡有一個快速列表:
1 — DCGANs
2 — Improved Techniques for Training GANs
3— Conditional GANs
4 — Progressively Growing GANs
5 — BigGAN
6 — StyleGAN
7 — CycleGAN
8 — Pix2Pix
9 — StackGAN
10 — Generative Adversarial Networks
DCGANs — Radford et al. (2015)
我建議你從DCGAN論文開始。本文展示了卷積層如何與GANs一起使用,並提供了一系列額外的關於體系結構的指南。本文還討論了GAN特徵的可視化、潛空間的插值、利用判別器的特徵來訓練分類器、評價結果等問題。所有這些額外的話題都必然會出現在你的GAN研究中。總之,DCGAN論文是一篇必讀的GAN論文,因為它以一種非常清晰的方式定義了體系結構,因此很容易從一些代碼開始,並開始開發GANs的直覺。
DCGAN模型 — 帶上採樣卷積層的生成結構
Improved Techniques for Training GANs — Salimans et al. (2016)
本文(其作者包括Ian Goodfellow)根據上述DCGAN文章中列出的體系結構指南提供了一系列建議。本文將幫助你了解GANs不穩定性的最佳假設。此外,本文還提供了許多用於穩定DCGANs訓練的附加技術。這些包括特徵匹配、小批量識別、歷史平均、單邊標籤平滑和虛擬批處理標準化。使用這些建議構建一個簡單的DCGANs的實現,對於學習更多關於GANs的知識是一個很好的練習。
Conditional GANs — Mirza and Osindero (2014)
這是一篇很好的論文,讀起來很快。Conditional GANs是當時最先進的GANs的核心的主題。本文展示了如何集成數據的類標籤,從而使GAN訓練更加穩定。利用先驗信息對GANs進行調節的概念在GANs研究的未來工作中是一個反覆出現的主題,對於側重於圖像到圖像或文本到圖像的論文尤其重要。
條件GANs的結構,除了隨機噪聲向量z之外,類標籤y被連接在一起作為網絡的輸入
Progressively Growing of GANs for Improved Quality, Stability, and Variation — Karras et al. (2017)
由於其令人印象深刻的結果和對GAN問題的創造性的方法,這篇文章是必讀的。本文使用多尺度結構將解析度從 4² 提升到 8² 最終到1024²。GAN的不穩定性隨著目標圖像解析度的增大而增大,本文給出了一種解決這一問題的方法。
這幅圖描述了多尺度的結構,模型的解析度從4²逐漸提升到1024²
BigGAN — Brock et al. (2019)
BigGAN模型是目前在ImageNet上進行生成的最先進的方法。該模型很難在本地機器上實現,而且該體系結構有許多組件,如Self-Attention、Spectral Normalization和帶有投影判別器的cGAN,這些組件在各自的論文中都有更好的解釋。然而,本文對構成當前最先進水平的基礎論文的思想提供了一個很好的概述。
來自BigGAN最先進模型生成的令人難以置信的樣本
StyleGAN — Karras et al. (2019)
StyleGAN模型可以說是其最先進的方法,特別是對潛空間的控制。該模型借鑑了自適應實例歸一化(AdaIN)神經風格傳遞的一種機制來控制潛空間向量z。映射網絡和生成器模型中AdaIN條件的分布的結合使你很難實現這一點,但是它仍然是一篇很值得一讀的文章,包含了許多有趣的想法。
StyleGAN結構,可以進行最先進的潛空間控制
CycleGAN — Zhu et al. (2017)
CycleGAN的論文不同於前面提到的6篇論文,因為它討論的是圖像到圖像的轉換問題,而不是隨機向量的圖像合成問題。CycleGAN更具體地處理了沒有成對訓練樣本的圖像到圖像轉換的情況。然而,由於循環一致性損失公式的優雅性和對如何穩定GAN訓練的直覺,這是一篇很好的論文。CycleGAN有很多很酷的應用,比如超解析度,風格轉換,從馬到斑馬的轉換。
循環一致性損失背後的中心思想,將一個句子從法語翻譯成英語,再翻譯回法語,應該是同一個句子
Pix2Pix — Isola et al. (2016)
Pix2Pix是另一種圖像到圖像轉換GAN模型。該框架使用成對的訓練樣本,並在GAN模型中使用許多不同的配置進行研究。讀這篇文章時,我覺得最有趣的一件事是關於PatchGAN的討論。PatchGAN通過觀察圖像的70×70個區域來判斷它們是真的還是假的,而不是整個圖像。該模型還顯示了一個有趣的U-Net風格的生成器體系結構,以及在生成器模型中使用resnet風格的跳過連接。這有很多很酷的應用,比如將邊緣映射到逼真的照片。
使用成對的訓練樣本進行圖像到圖像的轉換
StackGAN — Zhang et al. (2017)
StackGAN的論文與本列表中的前幾篇論文相比非常獨特。它與條件GANs和Progressively Growing GANs最相似。StackGAN模型的工作原理與Progressively Growing GANs相似,因為它在多個尺度上都可以工作。StackGAN第一個輸出圖像的解析度為64²,然後以這個作為先驗信息生成一個256²的圖像。StackGAN先比其他論文是非常獨特的,因為它是從自然語言文本到圖像的變換。這是通過改變文本嵌入來實現的,這樣它就可以捕獲視覺特徵。這是一篇非常有趣的文章,在StyleGAN中看到顯示的潛空間控制與StackGAN中定義的自然語言接口相結合,那會是非常令人驚奇的。
基於文本嵌入的StackGAN多尺度體系結構背後的思想
Generative Adversarial Networks — Goodfellow et al. (2014)
Ian Goodfellow 的原始論文是任何研究GANs的人的必讀論文。本文定義了GANs的框架,並討論了「非飽和」損耗函數。本文還給出了最優判別器的推導,這是近年來GAN文獻中經常出現的一個證明。並對MNIST、TFD和CIFAR-10圖像數據集進行了實驗驗證。
英文原文:https://towardsdatascience.com/must-read-papers-on-gans-b665bbae3317
請長按或掃描二維碼關注本公眾號