作者:Connor Shorten
编译:ronghuaiyang
生成对抗网络是深度学习中最有趣和最受欢迎的应用之一。这篇文章列出了10篇关于GANs的论文,这会给你一个很好的GAN的介绍,并以此为基础理解最先进的论文。让我们开始吧。
生成对抗网络是深度学习中最有趣和最受欢迎的应用之一。这篇文章列出了10篇关于GANs的论文,这会给你一个很好的GAN的介绍,并以此为基础理解最先进的论文。让我们开始吧!
如果你对阅读每篇论文的介绍不感兴趣,这里有一个快速列表:
1 — DCGANs
2 — Improved Techniques for Training GANs
3— Conditional GANs
4 — Progressively Growing GANs
5 — BigGAN
6 — StyleGAN
7 — CycleGAN
8 — Pix2Pix
9 — StackGAN
10 — Generative Adversarial Networks
DCGANs — Radford et al. (2015)
我建议你从DCGAN论文开始。本文展示了卷积层如何与GANs一起使用,并提供了一系列额外的关于体系结构的指南。本文还讨论了GAN特征的可视化、潜空间的插值、利用判别器的特征来训练分类器、评价结果等问题。所有这些额外的话题都必然会出现在你的GAN研究中。总之,DCGAN论文是一篇必读的GAN论文,因为它以一种非常清晰的方式定义了体系结构,因此很容易从一些代码开始,并开始开发GANs的直觉。
DCGAN模型 — 带上采样卷积层的生成结构
Improved Techniques for Training GANs — Salimans et al. (2016)
本文(其作者包括Ian Goodfellow)根据上述DCGAN文章中列出的体系结构指南提供了一系列建议。本文将帮助你了解GANs不稳定性的最佳假设。此外,本文还提供了许多用于稳定DCGANs训练的附加技术。这些包括特征匹配、小批量识别、历史平均、单边标签平滑和虚拟批处理标准化。使用这些建议构建一个简单的DCGANs的实现,对于学习更多关于GANs的知识是一个很好的练习。
Conditional GANs — Mirza and Osindero (2014)
这是一篇很好的论文,读起来很快。Conditional GANs是当时最先进的GANs的核心的主题。本文展示了如何集成数据的类标签,从而使GAN训练更加稳定。利用先验信息对GANs进行调节的概念在GANs研究的未来工作中是一个反复出现的主题,对于侧重于图像到图像或文本到图像的论文尤其重要。
条件GANs的结构,除了随机噪声向量z之外,类标签y被连接在一起作为网络的输入
Progressively Growing of GANs for Improved Quality, Stability, and Variation — Karras et al. (2017)
由于其令人印象深刻的结果和对GAN问题的创造性的方法,这篇文章是必读的。本文使用多尺度结构将分辨率从 4² 提升到 8² 最终到1024²。GAN的不稳定性随着目标图像分辨率的增大而增大,本文给出了一种解决这一问题的方法。
这幅图描述了多尺度的结构,模型的分辨率从4²逐渐提升到1024²
BigGAN — Brock et al. (2019)
BigGAN模型是目前在ImageNet上进行生成的最先进的方法。该模型很难在本地机器上实现,而且该体系结构有许多组件,如Self-Attention、Spectral Normalization和带有投影判别器的cGAN,这些组件在各自的论文中都有更好的解释。然而,本文对构成当前最先进水平的基础论文的思想提供了一个很好的概述。
来自BigGAN最先进模型生成的令人难以置信的样本
StyleGAN — Karras et al. (2019)
StyleGAN模型可以说是其最先进的方法,特别是对潜空间的控制。该模型借鉴了自适应实例归一化(AdaIN)神经风格传递的一种机制来控制潜空间向量z。映射网络和生成器模型中AdaIN条件的分布的结合使你很难实现这一点,但是它仍然是一篇很值得一读的文章,包含了许多有趣的想法。
StyleGAN结构,可以进行最先进的潜空间控制
CycleGAN — Zhu et al. (2017)
CycleGAN的论文不同于前面提到的6篇论文,因为它讨论的是图像到图像的转换问题,而不是随机向量的图像合成问题。CycleGAN更具体地处理了没有成对训练样本的图像到图像转换的情况。然而,由于循环一致性损失公式的优雅性和对如何稳定GAN训练的直觉,这是一篇很好的论文。CycleGAN有很多很酷的应用,比如超分辨率,风格转换,从马到斑马的转换。
循环一致性损失背后的中心思想,将一个句子从法语翻译成英语,再翻译回法语,应该是同一个句子
Pix2Pix — Isola et al. (2016)
Pix2Pix是另一种图像到图像转换GAN模型。该框架使用成对的训练样本,并在GAN模型中使用许多不同的配置进行研究。读这篇文章时,我觉得最有趣的一件事是关于PatchGAN的讨论。PatchGAN通过观察图像的70×70个区域来判断它们是真的还是假的,而不是整个图像。该模型还显示了一个有趣的U-Net风格的生成器体系结构,以及在生成器模型中使用resnet风格的跳过连接。这有很多很酷的应用,比如将边缘映射到逼真的照片。
使用成对的训练样本进行图像到图像的转换
StackGAN — Zhang et al. (2017)
StackGAN的论文与本列表中的前几篇论文相比非常独特。它与条件GANs和Progressively Growing GANs最相似。StackGAN模型的工作原理与Progressively Growing GANs相似,因为它在多个尺度上都可以工作。StackGAN第一个输出图像的分辨率为64²,然后以这个作为先验信息生成一个256²的图像。StackGAN先比其他论文是非常独特的,因为它是从自然语言文本到图像的变换。这是通过改变文本嵌入来实现的,这样它就可以捕获视觉特征。这是一篇非常有趣的文章,在StyleGAN中看到显示的潜空间控制与StackGAN中定义的自然语言接口相结合,那会是非常令人惊奇的。
基于文本嵌入的StackGAN多尺度体系结构背后的思想
Generative Adversarial Networks — Goodfellow et al. (2014)
Ian Goodfellow 的原始论文是任何研究GANs的人的必读论文。本文定义了GANs的框架,并讨论了“非饱和”损耗函数。本文还给出了最优判别器的推导,这是近年来GAN文献中经常出现的一个证明。并对MNIST、TFD和CIFAR-10图像数据集进行了实验验证。
英文原文:https://towardsdatascience.com/must-read-papers-on-gans-b665bbae3317
请长按或扫描二维码关注本公众号