CVPR 2020 | MetaFuse:用於人體姿態估計的預訓練信息融合模型

2020-04-20     AI科技評論

本文是 CVPR 2020入選論文《MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation》的解讀。

作者 | PKU CVDA

編輯 | 叢 末

論文地址:https://arxiv.org/abs/2003.13239

1

引言從多視角圖像中估計出人體關鍵點的 3D 坐標,是計算機視覺中一個重要的任務。許多工作的流程為:首先從每個相機視角估計出 2D 坐標,然後使用三角化(Triangulation)等方法,計算出對應的 3D 坐標。這類方法的最終結果質量,通常取決於 2D 坐標的精確度。但是,如果存在遮擋等問題,預測的 2D 坐標會存在較大的誤差。在預測 2D 坐標過程中,融合多個視角的信息可有效解決遮擋等問題。但是目前方法中,融合模型的參數依賴於特定相機對,難以泛化到新的環境。針對這一問題,本文提出將原有的融合模型分解為(1)所有相機共享的通用模型(2)針對特定相機的輕量變換矩陣。並且使用元學習算法,在大規模多相機數據中進行預訓練,從而最大化模型的泛化能力。在多個公開數據集上的實驗,證明了該模型(MetaFuse)在新環境中只需少量樣本即可有效遷移

圖1:MetaFuse示意圖

2 預備知識:多視角信息融合

圖2:多視角信息融合的幾何解釋

首先介紹多視角信息融合的基礎知識[1]。由對極幾何(Epipolar Geometry)可知,相機1中的一個像素點

,在另一個相機2中,對應的像素點必定位於一條直線 I(Epipolar Line)上。因此,我們可以將直線 I 對應的特徵信息,融合到該點

中。具體公式如下所示:

其中 ωj,i 是一個標量,代表了相機2中像素 j 與相機1中像素 i 關聯程度,如何確定其取值是融合過程中最關鍵的問題。在[1]中提出的 NaiveFuse 模型中,直接採用了全連接層(FCL)的方式,來融合一個相機對之間的信息。如圖3所示,將視角1中卷積網絡預測的 Heatmap 拉伸為一維向量,然後經過全連接層轉換後與視角2的初始 Heatmap 相加,即可得到視角2的最終預測。該融合模塊(FCL)可以和卷積網絡一起,使用真實標記作為監督,進行端到端的訓練。

圖3:NaiveFuse模型

但是,全連接層簡單地將一個視角中的所有像素,和另一視角中所有像素相連接。它的參數對位置的敏感性高,當相機姿態稍微變化時就可能急劇改變。因此,該方法很難遷移到不同的多相機環境中。此外,全連接層的參數量較大(一般為 642×642),在小數據量訓練的情況下存在過擬合的風險。

3

本文方法本文的主要貢獻在於兩個方面。第一是將原有的 NaiveFuse 模型分解為兩個部分,形成了更緊湊且可遷移性更好的模型。第二是在有著大量相機對的數據中,使用元學習算法來進行訓練,目的是讓模型經過少量數據微調(Fine-Tuning)後,即能遷移到未知的多相機環境中。如圖2所示,如果已知

在視角2中對應的線段 I。將視角2切換為視角3時,可以通過對線段 I 進行合適的仿射變換,得到視角3中對應的極線。受此啟發,假設存在一個通用的融合模型 ωbase,它用於連接視角1中單個像素和視角2中的所有像素。那麼對於視角1的其他像素而言,可以通過對 ωbase進行仿射變換,得到對應的融合權重。計算過程如下所示,其中 T 代表仿射變換,θi代表視角1中像素 i 對應的仿射變換參數(2×3 的二維矩陣)。而 ωi則連接了視角1中像素 i 和視角2中所有像素,尺寸與 Heatmap 相同,為 H×W。仿射變換的實現參考了 Spatial Transformer Network[2]。

對於不同的相機對,同樣可以對 ωbase進行仿射變換來得到所需的融合模型。該過程實際上將原有模型分解為(1)所有相機對共享的通用模型 ωbase;(2)針對特定相機對和特定像素位置的輕量變換矩陣θ。與 NaiveFuse 模型不同,通用模型在相機姿態變化時更加穩定。

此外,本文還採用了 Model-agnostic Meta-learning(MAML)的元學習框架[3],來學習更好的初始化模型。元學習(Meta-Learning)的主要目標,是在不同任務組成的分布中學習,從而使模型能快速適應新任務。在本文中,一個任務指的是對一個相機對進行信息融合。訓練過程中,使用大量不同的相機對數據進行 Meta-Training。目的是訓練出更好的參數初始值,該初始值可以更快地遷移到新的相機對。

圖4:MetaFuse訓練流程

本文提出的方法 MetaFuse,總體訓練流程如圖4所示。第一步,先使用所有數據來訓練卷積網絡(CNN)部分。第二步,固定卷積網絡參數,使用 Meta-Training 訓練得到最優的 ωbaseθ 初始值。在測試階段遇到新的環境(相機對)時,只需要少量標記樣本對仿射變換參數θ進行微調。

4 實驗與分析數據集

實驗的訓練集是 CMU Panoptic Dataset, 從中選取了20個相機的數據用於訓練(Meta-Training)。測試數據集為 H36M(Human3.6M),Total Capture 數據集等。在 H36M 等數據集中,只使用少量標記數據進行微調(50~500個)。

對比方法

用於對比的 Baseline 方法包括:

  1. No Fusion,不進行視角間的信息融合;

  2. Full Fusion,使用所有目標數據,進行 NaiveFuse 的訓練;

  3. 使用少量數據訓練 NaiveFuse;

  4. AffineFuse,使用常規梯度下降方法訓練參數分解後的模型,並使用少量數據微調;

  5. MetaFuse,使用元學習來訓練參數分解後的模型,並使用少量數據微調。

實驗結果

在 H36M 數據集的 2D 檢測結果如圖5所示,其中橫坐標表示用於微調的樣本數量,縱坐標表示關節點檢測成功率(Joint Detection Rate)。可以看出,NaiveFuse 在樣本數量較小時效果差,出現了過擬合的現象。AffineFuse 的表現超過了 NaiveFuse,驗證了參數分解的有效性。而本文提出的 MetaFuse,在不同的數量時都超過了其他方法,驗證了元學習算法可進一步增強模型的泛化性能。

圖5:H36M數據集的2D結果

在 H36M 和 Total Capture 數據集中,得到的 3D 結果分別如表1和表2所示。3D 姿態估計的準確度,使用真實 3D 坐標和預測坐標的Mean Per Joint Position Error(MPJPE)來衡量。

表1:H36M數據集的3D結果

表2:Total Capture數據集的3D結果

圖6對多視角信息融合的過程進行了可視化。

圖6:信息融合過程可視化

5 總結

本文提出了 MetaFuse,一種在新的測試環境中只需少量樣本即可訓練的多視角信息融合模型。該方法可以和目前任意的 2D 人體姿態估計模型相結合,並且可遷移到任意的多相機環境中。在多個公開數據集中的實驗結果,驗證了該模型的泛化能力。

參考文獻

[1] Haibo Qiu, Chunyu Wang, Jingdong Wang, Naiyan Wang, and Wenjun Zeng. Cross view fusion for 3d human pose estimation. In ICCV, pages 4342–4351, 2019.

[2] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al. Spatial transformer networks. In NIPS, pages 2017–2025, 2015.

[3] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model agnostic meta-learning for fast adaptation of deep networks. In ICML, pages 1126–1135. JMLR. org, 2017

文章來源: https://twgreatdaily.com/zh-my/C51ilXEBnkjnB-0z3k2c.html