作者:Less Wright
编译:ronghuaiyang
对于物体检测来说图像增强最有效的三种方法。
谷歌Brain刚刚发布了一篇新论文,回答了许多深度学习实践者关于“什么对训练物体检测模型最有效”的问题。
摘录自谷歌的论文,显示了从他们的增强策略对性能的持续改善
虽然通常的做法是简单地使用与图像分类(翻转等)类似的增强技术,但他们发现,作为用于物体检测的“学习”增强策略的一部分,专门的增强效果更好。在他们全新的增强策略中高度使用了这些“前3”检测特定数据增强技术,他们在COCO数据集上实现了最先进的RetinaNet的精度,并进一步表明它在许多其他架构和数据集上工作得很好。换句话说,如果你想优化物体检测模型,你需要确保了使用这些数据增强,并且尽可能使用它们的完整增强策略!
此外,最新的和持续的,最大的研究主题“数据增强,而不是显式的正则化”(请参阅我的前一篇文章:https://medium.com/swlh/optimal-cnn-development-use-data-augmentation-not-explicit-regularization-dropout-weight-decay-c46fb6b41c02),他们还表明,数据增加这三种类型本质上提高L2范数的权重,没有明确的正规化。
“增强策略优于用于物体检测的最先进的体系结构正则化方法,即使在考虑强基线时也是如此。”
上面的引用来自他们的论文,这篇论文在这里:https://arxiv.org/abs/1906.11172v1,但是让我们深入了解一些用于训练最先进的物体检测模型的新最佳实践的快速概述和总结!
他们的研究结果包括:
物体旋转增强,注意,边界框需要变大
B. 均衡化 — 这个操作简单的对图像直方图进行了拉平操作
C. 边界框沿着Y轴运动 — 这将使包围框中的物体沿Y轴上下移动(向上或向下的几率为50%)。
通过测试各种ResNet体系结构,可以看到使用跨主干网络的学习到的增强变换策略的改进。此外,他们还将其与DropBlock增强进行比较,并测试了增强的类别(颜色、几何和边框),以显示增强的可加性:
使用各种ResNet架构和DropBlock比较的结果
谷歌Brain已经发布了他们最优策略的训练代码,但它只在TensorFlow上,无论如何,这是他们的v3策略,显示了高频率的前3个增强:
学到的增强策略
使用所学习到的增强策略后,物体检测的精度有了提升
摘要:本文展示了对物体检测模型(而不是使用与图像分类相同的模型)进行优化训练的特定的数据增强方法的重要性,并为指导训练提供了最优策略。他们展示了使用这种学习策略在COCO数据集上训练RetinaNet架构的最新结果。
即使你没有使用它们的全部策略,仅知道前3个增强方案对于你在自己的物体检测训练(旋转、均衡话、边界框的Y移位)中使用它们也是非常重要的信息。
最后,本文继续证明了最新的研究成果,即数据增强本质上为CNN模型提供了正则化。
英文原文:https://medium.com/@lessw/state-of-the-art-object-detection-use-these-top-3-data-augmentations-and-google-brains-optimal-57ac6d8d1de5
请长按或扫描二维码关注本公众号