空間-角度信息交互用於光場圖像超分辨重構,性能達到最新SOTA | ECCV 2020

2020-07-12     AI科技大本營

原標題:空間-角度信息交互用於光場圖像超分辨重構,性能達到最新SOTA | ECCV 2020

作者 | Yingqian Wang, Longguang Wang等

譯者 | 劉暢

出品 | AI科技大本營(ID:rgznai100)

光場(LF)相機不僅會記錄光線的強度,也會記錄光線的方向,並且會從多個視點捕獲場景。而每個視點內的信息(即空間信息)以及不同視點之間的信息(即角度信息)都有利於圖像超解析度(SR)。

在本文中,作者提出了一種用於LF圖像SR的空間角度交互網絡(即LF-InterNet)。在本方法中,作者使用兩個專門設計的卷積分別從輸入的光場圖中提取空間和角度特徵。然後,將這些提取的特徵重複地交互以合併空間和角度信息。最後,將交互的空間和角度特徵融合在一起,去超分辨每個子孔徑的圖像。

作者在6個公共的LF測試數據集上做了實驗,證明了本文方法的優越性。與現有的LF圖像和單張圖像超分辨方法相比,本文的方法可以恢復更多的細節,並且在PSNR和SSIM兩個指標上比現有技術有顯著提升。

論文連結:https://arxiv.org/abs/1912.07849

代碼地址:https://github.com/YingqianWang/LF-InterNet

引言

光場相機可以提供場景的多個視圖,因此可在許多方面都有應用,例如深度估計,顯著性檢測、去遮擋等。然而,LF相機面臨著空間解析度和角度解析度之間的權衡。也就是說,它要麼可以提供低圖像解析度的密集角度採樣,要麼提供高分辨圖像的稀疏角度採樣。因此,研究者們已經做了許多努力,通過LF重構來提升角度解析度,或者通過LF圖像超解析度(SR)來提升空間解析度。在本文中,作者主要關注LF圖像的SR問題,即從其相應的低解析度(LR)子孔徑圖像(sub-aperture image, SAI)重建高解析度(HR)的 SAI。

圖像超分辨重構是計算機視覺中一個長期存在的問題。為了獲得較高的重建效果,SR方法需要從LR輸入中吸收儘可能多的有用信息。在單張圖像SR領域,可以通過充分利用圖像中的鄰域上下文(即空間信息)來取得較好的效果。相比之下,LF相機可從多個視圖捕獲場景。而不同視圖之間的角度信息,則可以用於進一步提升LF圖像的SR效果。

但是,由於LF複雜的4D結構,在LF中合併空間和角度信息是非常有挑戰性的。現有的LF圖像超分辨方法無法充分利用角度信息和空間信息,從而導致SR性能有限。具體地,有研究人員使用單個圖像SR方法分別對SAI進行超分辨,然後將其微調在一起以合併角度信息。也有研究者僅使用部分SAI來超分辨一個視圖,並且未合併另外廢棄視圖中的角度信息。

相反,有另外的研究人員提出了一種基於圖的方法來考慮優化過程中的所有角度視圖。但是,該方法無法充分利用空間信息,並且不如基於深度學習的SR方法。值得注意的是,即使所有視圖都被送到一個深層神經網絡,要實現卓越的性能仍然十分具有挑戰。

由於空間信息和角度信息在LF圖像中高度耦合,並採用不同的方式對LF圖像超分辨做出貢獻。因此,網絡難以直接使用這些耦合信息。為了有效地合併空間和角度信息,本文提出了用於LF圖像超分辨的空間角度信息交互網絡(即LF-InterNet)。

首先,作者專門設計了兩個卷積,以將空間和角度特徵與輸入的LF分離。然後,作者提出了LF-InterNet以重複交互併合並空間和角度信息。最後,作者做了多個消融實驗驗證了本文的設計。並將本文方法與最新的單一圖像和LF圖像SR方法,在6個公開LF數據集上進行了比較。結果顯示,本文的LF-InterNet顯著提升了PSNR和SSIM性能。

方法

空間-角度特徵解耦

光場圖像按照上圖左邊的方式進行排列可以組成陣列的SAI,將每幅陣列SAI相同空間位置的像素按照視角順序進行排列,則可以構成宏像素的圖像(macro-pixel image,MacPI)。本文所提出的空間信息特徵提取(SFE)與角度信息特徵提取(AFE)均以MacPI作為輸入,如下圖所示。

作者對光場宏像素圖進行了簡化示例,其中光場的空間解析度與角度解析度均為3*3。圖中塗有不同底色的3*3區域表示不同的宏像素,每個宏像素內的3*3標有不同的符號(十字、箭頭等),表示其屬於不同的視角。然後作者分別對兩種特徵提取器進行了定義。AFE是kernel size=A*A,stride=A的卷積;SFE是kernel size=3*3,stride=1,dilation=A的卷積。注意,將AFE應用於MacPI時,只有單個MacPI內的像素參與卷積運算,而不同像素之間信息不互通。同理,將SFE應用於MacPI時,只有屬於相同視角的像素參與卷積運算,而屬於不同視角的像素不互通。因此,AFE和SFE可以分別提取光場的角度信息和空間信息,實現信息的解耦。

網絡設計

上圖是作者構建的LF-InterNet網絡,該網絡主要分為三個部分,特徵提取、空間角度特徵交互、特徵融合重構。

特徵提取:將上述的AFE與SFE兩種特徵提取器應用於輸入的光場MacPI時,可以分別提取光場的角度特徵與空間特徵。

空間角度特徵交互:用於實現空間角度特徵交互的基本單元為交互塊(Inter-Block)。該文將4個交互塊級聯構成了一個交互組(Inter-Group),再將4個交互組級聯構成網絡的交互部分。如圖4(b)所示,在每個交互塊中,輸入的空間特徵與角度特徵進行一次信息交互。交互上是相互的,一方面角度特徵上採樣A倍後與空間特徵進行級聯,而後通過一個SFE與ReLU實現角度信息引導的空間特徵融合;另一方面,空間特徵通過AFE卷積提取新一輪的角度特徵,並與輸入的角度特徵進行級聯,而後通過一個1*1卷積與ReLU進行角度特徵的更新。空間特徵分支與角度特徵分支均採用局部殘差連接。

特徵融合構建:網絡的每個交互組輸出的空間特徵與角度特徵分別進行級聯,而後通過bottleneck模塊進行全局特徵融合。如圖4(c)所示,在bottleneck模塊中,角度特徵首先通過1*1卷積與ReLU進行通道壓縮,而後通過上採樣與空間特徵進行級聯。融合得到的特徵通過SFE進行通道擴增,而後通過光場結構reshape為陣列的SAI形式,最後通過pixel-shuffle層與1*1卷積層輸出高解析度光場SAI。

實驗

作者首先介紹了數據集和實現的細節,然後進行了消融實驗。最後,將LF-InterNet與最新的LF圖像SR和單圖像SR方法進行比較。

數據集和細節

該文採用下表所示的6個公開數據集進行訓練與測試。訓練時,會把每張SAI分割成64*64的大小,生成一個LR patches。網絡訓練採用L1 loss,數據增強採用了翻轉和旋轉。評價指標採用PSNR和SSIM。算法是使用pyTorch實現,已開源。針對2倍和4倍的超分辨,輸入光場的角度解析度為5*5,LF-InterNet的通道數設為64。

消融實驗

空間信息和角度信息

通過表格2可以看出,空間信息和角度信息對於超分辨的提升均有幫助。且不能僅單獨使用角度信息,空間信息對於超分辨性能的提升更有益。而本文提出的SFE和AFE對於信息的解耦可以進一步提升SR性能。

特徵交互組的數量

可以看出,如果沒有特徵交互,效果較差。而隨著特徵交互組數量的增多,效果變得越來越好。

角度-空間上採樣方式 & 角度解析度

表格4可以看出,nearest、bilinear相較於pixel shuffling的採樣方式,均不夠好。表格5可以看出,2倍和4倍的超分辨重構效果均隨著角度解析度的增加而提升。

算法對比

本文在6個公開數據集上將LF-InterNet與單圖超分辨算法VDSR、EDSR、RCAN、SAN、SRGAN、ESRGAN以及光場圖像超分辨算法LFBM5D,GB,LFSSR,resLF,以及LF-ATO進行了比較,結果如下表格所示,本文算法是目前的SOTA。

視覺上的效果以及性能對比

通過視覺上的對比,本文算法可以更好的保持紋理和細節信息。且從模型參數量和FLOPs數上,性能是明顯優於LF-ATO算法。

結論

本文提出了空間-角度信息交互的光場圖像超分辨網絡(LF-InterNet),首先設計了空間特徵提取器與角度特徵提取器分別提取光場圖像的空間與角度特徵,而後構建LF-InterNet對兩類特徵進行漸進式交互融合。實驗驗證了該文算法的有效性,達到了目前的SOTA。

文章來源: https://twgreatdaily.com/zh-mo/VPLdQ3MBfGB4SiUw1Q7X.html










CSDN湘苗培優

2020-12-24