視覺+Transformer最新論文出爐,華為聯合北大、雪梨大學發表

2020-12-25   AI科技大本營

原標題:視覺+Transformer最新論文出爐,華為聯合北大、雪梨大學發表

作者 | CV君

來源 | 我愛計算機視覺

Transformer 技術最開始起源於自然語言處理領域,但今年5月份Facebook 的一篇文章將其應用於計算機視覺中的目標檢測(DETR算法,目前已有78次引用)使其大放異彩,並迅速得到CV研究社區的關注。

已有研究表明,Transformer 在計算機視覺領域不僅適用於高級任務如圖像分類、目標檢測、車道線檢測等,在低級任務如圖像增強中也取得了突破性進展,毫無疑問,Transformer 是目前計算機視覺領域最值得關注的方向之一。

一時間,在各種視覺任務 + Transformer 的論文正如雨後春筍般湧出。

今天,來自華為諾亞方舟實驗室、北京大學、雪梨大學的學者公布論文 A survey on Visual Transformer,對該領域進行了較為系統的文獻總結,相信對於想要研究、使用Visual Transformer 技術肯定會有幫助。

該文作者信息:

Transformer 技術發展的里程碑事件:

Transformer 的重要事件

下表列出了 Visual Transformer 代表作品:

Transformer 已經進入的視覺方向:圖像分類、目標檢測、分割、圖像增強、圖像生成、視頻修補、視頻描述等,為解決Transformer 計算效率問題,業界也有多篇論文提出了新的改進。以推進 Transformer 在CV工業界的儘快落地。

Transformer 是什麼?

Transformer 的提出最開始用於機器翻譯,下圖展示了原汁原味 Transformer 的結構:

用於早期自然語言處理任務的 Transformer 架構圖

這裡輸入是一種語言的句子,每個單詞變換為512維的向量嵌入,Transformer 時對其進行多次的編碼和解碼,編碼模塊中每一個編碼器Encoder把上一階段的結果進行編碼,最後一個編碼器將數據經過多個解碼器Decoder 進行解碼,解碼器之間也進行串聯,最後一個解碼器輸出另一種語言的句子。

每一個編碼器Encoder內含有自注意力(self-attention layer)層和一個前饋神經網絡(feed-forward neural network)模塊。每一個解碼器含有自注意力(self-attention layer)層、編碼器-解碼器注意力層和一個前饋神經網絡(feed-forward neural network)模塊。

Transformer 的詳細結構圖

基於Transformer的語言模型獲得了成功應用:

基於Transformer構建的代表性語言模型列表

Vision Transformer(ViT,出自谷歌論文 An image is worth 16x16 words: Transformers for image recognition at scale)示意圖:

Vision Transformer 框架

IPT的架構圖

iGPT 、 ViT 、BiT-L的詳細結果如下表:

Transformer 用於目標檢測突破性算法DETR(出自Facebook 論文 End-to-end object detection with transformers)流程圖:

DETR 的整體架構

為使得Visual transformer 模型參數量和計算量更小,使其更具實用性,業界提出了不少算法。

下表列舉了基於 transformer 的模型壓縮代表作:

作者指出了一些未來的研究方向:

開發更適合視覺任務的transformer 模型;

自然語言處理中的transformer往往一個模型可以在多個任務中有效,CV領域中也值得探索;

研究更加計算高效的transformer。

參考連結:

https://arxiv.org/abs/2012.12556