本文介紹的是 CVPR 2020 入選論文《PQ-NET:序列化的三維形狀生成網絡(PQ-NET: A Generative Part Seq2Seq Network for 3D Shapes)》(已開源),文章來自北京大學前沿計算研究中心陳寶權教授帶領的團隊。
文 | PKU VCL
編 | 賈 偉
論文地址:https://arxiv.org/abs/1911.10949
代碼庫:https://github.com/ChrisWu1997/PQ-NET
1、動 機
三維形狀物體的生成是計算機圖形學和計算機視覺領域的一個重要問題。圖形學關注三維物體的建模,而計算機視覺關注如何推斷,如從單張圖片的輸入,對應三維物體的形狀。近年來,很多工作開始使用深度神經網絡結合不同的三維表達方式來實現三維形狀的生成,如體素(voxel),點雲(point clouds),三角網格(mesh)以及隱式曲面表達(implicit function)。大部分此類工作生成的是非結構化的三維物體,但是結構化的表達對於感知和理解三維物體是很重要的,如物體不同組件的構成、關係等。
在這個工作里,我們設計了一個深度神經網絡,通過順序部件裝配(sequential part assembly)的方式來表達和生成三維物體。簡單來說,我們把這樣的部件裝配序列看成一個」句子」,這個「句子」的每一個「單詞」描述了一個部件及其空間位置,類似說一句話一樣來生成三維模型。在這個意義上,我們的工作部分受到語法分析的啟發:一個句子既可以被看成一個由單詞構成的線性結構(linear),也可以被看成由嵌套的短語構成的層級結構(hierarchical)。在三維物體結構表達的情景下,先前的工作 [1,2,3] 採用層級的部件組合(從整體到局部的樹狀結構),而我們採用線性的部件組合。
Shape generation vis Sequential part assembly 順序部件組裝的三維形狀生成
2、方 法
我們的模型,PQ-NET,是基於一個 Seq2Seq 自編碼器(Seq2Seq autoencoder)來實現順序部件組裝和三維物體表征的。給定一個由多個部件構造的三維物體,我們將其表示為一個由多個向量構成的序列,每個向量對應一個部件,由一個表達這個部件的幾何的特徵向量和一個表達其大小和相對偏移的6維向量連接所得。表達部件的幾何的特徵向量是通過一個事先訓練好的隱式表達自編碼器(implicit function based autoencoder)[4] 所提取的。
因為每個三維物體所包含的部件個數可能是不同的,所以上述部件序列的長度是不定的。因此我們選用遞歸神經網絡(RNN)將輸入序列編碼到一個固定大小的隱空間,隨後解碼出來重建輸入序列,同時每一步輸出一個標誌符來判斷是否停止。
輸出序列每一步所包含的幾何特徵再進一步解碼生成每個部件的幾何,最後通過得到的每個部件的變換參數(大小、位移)將部件組裝成完整的三維物體。由於我們採用隱式曲面表達來表征三維幾何,所以最後生成的幾何可以是任意解析度的,從而能夠得到高質量的結構化三維物體。
Network architecture 網絡結構
3、結果與應用
模型學習到的隱空間,作為結構化三維形狀的一種表達,使得我們能夠進行隨機生成、單視角重建、形狀補全等多項應用。
對於三維形狀的隨機生成,我們在隱空間上訓練一個 WGAN [5] 將採樣自正態分布的噪聲向量映射到模型學習到的三維形狀隱空間,生成的隱向量再通過解碼器解碼成部件的序列,最終組合成完整的三維形狀。另外,三維形狀在隱空間的差值所生成的幾何展現出了平滑而有意義的過渡。
對於單視角重建,我們另外單獨訓練一個二維卷積網絡建立一個從輸入圖像空間到 PQ-NET 的隱空間的映射,即將輸入圖像映射到其所對應三維物體的隱向量。我們的實驗嘗試了輸入圖像是 RGB 圖片或者是深度圖的情況,並與其他方法進行了對比。
Random generation 隨機生成
Latent space interpolation 隱空間插值
4、討 論
在這篇文章中,我們提出了 PQ-NET,一個基於序列化部件組裝的三維形狀表達和生成網絡,以線性結構而非層級結構來表達結構化的三維形狀。PQ-NET 一個最大的缺點是它並沒有輸出各個部件之間的關係,例如對稱、相鄰等。這些關係更容易通過層級結構 [1,2,3] 來表達,但代價是需要足夠多的標註數據。總的來說,線性結構 vs 層級結構這兩種表達的優缺點是值得再深入探究的,尤其是在三維形狀的生成學習這個情景下。此外,PQ-NET 作為一個序列式的生成模型,採用了數據集裡所提供的默認部件順序。然而我們通過實驗發現部件的順序會對最終生成效果產生影響,如何定義和選取一個最優的線性表達順序也是一個有趣的問題。
可視計算與學習實驗室
北京大學前沿計算研究中心可視計算與學習實驗室,在陳寶權教授帶領下,圍繞圖形學、三維視覺、可視化及機器人等領域展開科學研究,堅持跨學科前沿技術探索、視覺藝術和技術融合兩條主線,長期與頂級國際團隊深度合作,並積極進行產業化實踐與推廣。
參考文獻
[1] Y. Wang, K. Xu, J. Li, H. Zhang, A. Shamir, L. Liu, Z. Cheng, and Y. Xiong. Symmetry hierarchy of man-made objects. Computer Graphics Forum, 30(2), 2011.
[2] J. Li, K. Xu, S. Chaudhuri, E. Yumer, H. Zhang, and L. Guibas. Grass: Generative recursive autoencoders for shape structures. ACM Trans. on Graph. (SIGGRAPH), 2017.
[3] K. Mo, P. Guerrero, L. Yi, H. Su, P. Wonka, N. Mitra, and L. J. Guibas. Structurenet: Hierarchical graph networks for 3d shape generation. ACM Trans. on Graph. (SIGGRAPH Asia), 2019.
[4] Z. Chen and H. Zhang. Learning implicit fields for generative shape modeling. IEEE CVPR, 2019.
[5] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. Courville. Improved training of wasserstein gans. NIPS 2017.