本文介紹的是 CVPR 2020 入選論文《PQ-NET：序列化的三維形狀生成網絡（PQ-NET: A Generative Part Seq2Seq Network for 3D Shapes）》（已開源），文章來自北京大學前沿計算研究中心陳寶權教授帶領的團隊。

文 | PKU VCL

編 | 賈偉

論文地址：https://arxiv.org/abs/1911.10949

代碼庫：https://github.com/ChrisWu1997/PQ-NET

1、動機

三維形狀物體的生成是計算機圖形學和計算機視覺領域的一個重要問題。圖形學關注三維物體的建模，而計算機視覺關注如何推斷，如從單張圖片的輸入，對應三維物體的形狀。近年來，很多工作開始使用深度神經網絡結合不同的三維表達方式來實現三維形狀的生成，如體素（voxel），點雲（point clouds），三角網格（mesh）以及隱式曲面表達（implicit function）。大部分此類工作生成的是非結構化的三維物體，但是結構化的表達對於感知和理解三維物體是很重要的，如物體不同組件的構成、關係等。

在這個工作里，我們設計了一個深度神經網絡，通過順序部件裝配（sequential part assembly）的方式來表達和生成三維物體。簡單來說，我們把這樣的部件裝配序列看成一個」句子」，這個「句子」的每一個「單詞」描述了一個部件及其空間位置，類似說一句話一樣來生成三維模型。在這個意義上，我們的工作部分受到語法分析的啟發：一個句子既可以被看成一個由單詞構成的線性結構（linear），也可以被看成由嵌套的短語構成的層級結構（hierarchical）。在三維物體結構表達的情景下，先前的工作 [1,2,3] 採用層級的部件組合（從整體到局部的樹狀結構），而我們採用線性的部件組合。

Shape generation vis Sequential part assembly 順序部件組裝的三維形狀生成

2、方法

我們的模型，PQ-NET，是基於一個 Seq2Seq 自編碼器（Seq2Seq autoencoder）來實現順序部件組裝和三維物體表征的。給定一個由多個部件構造的三維物體，我們將其表示為一個由多個向量構成的序列，每個向量對應一個部件，由一個表達這個部件的幾何的特徵向量和一個表達其大小和相對偏移的6維向量連接所得。表達部件的幾何的特徵向量是通過一個事先訓練好的隱式表達自編碼器（implicit function based autoencoder）[4] 所提取的。

因為每個三維物體所包含的部件個數可能是不同的，所以上述部件序列的長度是不定的。因此我們選用遞歸神經網絡（RNN）將輸入序列編碼到一個固定大小的隱空間，隨後解碼出來重建輸入序列，同時每一步輸出一個標誌符來判斷是否停止。

輸出序列每一步所包含的幾何特徵再進一步解碼生成每個部件的幾何，最後通過得到的每個部件的變換參數（大小、位移）將部件組裝成完整的三維物體。由於我們採用隱式曲面表達來表征三維幾何，所以最後生成的幾何可以是任意解析度的，從而能夠得到高質量的結構化三維物體。

Network architecture 網絡結構

3、結果與應用

模型學習到的隱空間，作為結構化三維形狀的一種表達，使得我們能夠進行隨機生成、單視角重建、形狀補全等多項應用。

對於三維形狀的隨機生成，我們在隱空間上訓練一個 WGAN [5] 將採樣自正態分布的噪聲向量映射到模型學習到的三維形狀隱空間，生成的隱向量再通過解碼器解碼成部件的序列，最終組合成完整的三維形狀。另外，三維形狀在隱空間的差值所生成的幾何展現出了平滑而有意義的過渡。

對於單視角重建，我們另外單獨訓練一個二維卷積網絡建立一個從輸入圖像空間到 PQ-NET 的隱空間的映射，即將輸入圖像映射到其所對應三維物體的隱向量。我們的實驗嘗試了輸入圖像是 RGB 圖片或者是深度圖的情況，並與其他方法進行了對比。

Random generation 隨機生成

Latent space interpolation 隱空間插值

4、討論

在這篇文章中，我們提出了 PQ-NET，一個基於序列化部件組裝的三維形狀表達和生成網絡，以線性結構而非層級結構來表達結構化的三維形狀。PQ-NET 一個最大的缺點是它並沒有輸出各個部件之間的關係，例如對稱、相鄰等。這些關係更容易通過層級結構 [1,2,3] 來表達，但代價是需要足夠多的標註數據。總的來說，線性結構 vs 層級結構這兩種表達的優缺點是值得再深入探究的，尤其是在三維形狀的生成學習這個情景下。此外，PQ-NET 作為一個序列式的生成模型，採用了數據集裡所提供的默認部件順序。然而我們通過實驗發現部件的順序會對最終生成效果產生影響，如何定義和選取一個最優的線性表達順序也是一個有趣的問題。

可視計算與學習實驗室

北京大學前沿計算研究中心可視計算與學習實驗室，在陳寶權教授帶領下，圍繞圖形學、三維視覺、可視化及機器人等領域展開科學研究，堅持跨學科前沿技術探索、視覺藝術和技術融合兩條主線，長期與頂級國際團隊深度合作，並積極進行產業化實踐與推廣。

參考文獻

[1] Y. Wang, K. Xu, J. Li, H. Zhang, A. Shamir, L. Liu, Z. Cheng, and Y. Xiong. Symmetry hierarchy of man-made objects. Computer Graphics Forum, 30(2), 2011.

[2] J. Li, K. Xu, S. Chaudhuri, E. Yumer, H. Zhang, and L. Guibas. Grass: Generative recursive autoencoders for shape structures. ACM Trans. on Graph. (SIGGRAPH), 2017.

[3] K. Mo, P. Guerrero, L. Yi, H. Su, P. Wonka, N. Mitra, and L. J. Guibas. Structurenet: Hierarchical graph networks for 3d shape generation. ACM Trans. on Graph. (SIGGRAPH Asia), 2019.

[4] Z. Chen and H. Zhang. Learning implicit fields for generative shape modeling. IEEE CVPR, 2019.

[5] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. Courville. Improved training of wasserstein gans. NIPS 2017.

CVPR 2020 | PQ-NET：序列化的三維形狀生成網絡

1、動機

2、方法

3、結果與應用

4、討論

文章來源: https://twgreatdaily.com/M9cx63ABfwtFQPkdN8tY.html

直播預告 | 明晚七點，相約阿里巴巴ACL 2021分享會（一）

ICCV 2021 DeeperAction挑戰賽

真正實現類人智能！美國工程院院士Jeff Hawkins：創造機器智能之路

Call for Papers丨KDD 2021 預訓練研討會，唐傑教授領銜

618如何避免剁手"X.O"洋酒？這個打假AI說：不怕，我1秒能識別20個！

亞馬遜首席科學家李沐：五年總結

強迫投稿者引用自己論文，IEEE高級會員被終身「禁賽」，網友：這事在國內很常見......

這5個數學猜想最早在30年前提出，如今AI證明它們都錯了

華人首次！清華姚班助理教授張煥晨獲得SIGMOD Jim Gray博士論文獎！

PapersWithCode和arXiv再次合作！可一鍵顯示論文使用的數據集

香港、澳洲三所高校 AI 博士生招生！還有研究助理和實習生等你加入......

ICML剛剛放榜！接收率僅21%為近五年最低，感謝審稿人不「殺」之恩

李飛飛高徒Andrej Karpathy用AI撰寫內心獨白：我的「進化」之路

直播預告 | 視聽感知學習魯棒性初探

香港、美國、新加坡三所高校新一輪 AI 博士生招生！快來一起發頂會論文

2021年Facebook博士生獎研金名單公布！一半獲獎者是華人博士生

摩根大通公布2021年AI研究博士生獎學金名單！獲獎華人博士生占1/3

預告 | 商湯學術公開課-AI畫質專題課程來襲！

網吹錢偉長寫論文「不必參考任何文獻」，但這的確不符合學術規範

重磅！Science &上海交大發布最新「全世界最前沿的125個科學問題」！

圖靈獎得主Jeffrey Ullman ：我是如何入坑計算機科學的？

學NLP的人跑去CV頂會投稿，中了頂會一作，還是一位本科生？

德撲AI大神、AAAI學術新星 Noam Brown：不完美信息多智能體場景下的AI研究

「倒計時1天」香港AI頂會報名開啟！楊強、譚鐵牛等6位院士18位專家，聯袂報告

CVPR 2020 | PQ-NET：序列化的三維形狀生成網絡

1、動 機

2、方 法

3、結果與應用

4、討 論

文章來源: https://twgreatdaily.com/M9cx63ABfwtFQPkdN8tY.html

1、動機

2、方法

4、討論