CNCC爆款技術論壇,申省梅、陳熙霖主持,西湖李子青、阿里王剛多視角講解CV賦能智慧城市

2019-10-21     AI科技評論

作者 | 叢末編輯 | 唐里

「計算機視覺技術賦能智慧城市」技術論壇儘管在大會第三天舉辦,仍然人滿為患。

10 月 17 日至 19 日,由 CCF 主辦、蘇州工業園區管委會、蘇州大學承辦的 CNCC 2019 在秋意正濃的蘇州如約而至。今年大會以「智能+引領社會發展」為主題,選址蘇州金雞湖國際會議中心召開。AI 科技評論將會作為戰略合作媒體進行全程跟蹤報道。

《計算機視覺技術賦能智慧城市》技術論壇由澎思科技首席科學家、新加坡研究院院長申省梅擔任主席,中科院計算所研究員、IEEE Fellow、IAPR Fellow、CCF會士陳熙霖擔任共同主席,邀請了西湖大學講席教授、IEEE Fellow李子青,西安電子科技大學教授、博士生導師楊淑媛、阿里巴巴自動駕駛實驗室主任、首席科學家王剛,清華大學自動化系副教授魯繼文,商湯科技副總裁、智能駕駛業務總經理勞世竑等 5 位來自學術界和業界的演講嘉賓從多重視角來分享計算機視覺技術在城市中的應用以及對產業落地的思考,值得一提的是,本論壇的主席申省梅也親自上陣作為演講嘉賓之一在現場為大家帶來了壓軸演講。

我們下面一一來看各位嘉賓的演講內容。

1、李子青:人臉識別挑戰問題和解決技術

開場演講由西湖大學講席教授李子青帶來,他的演講主題是《人臉識別挑戰問題和解決技術》,主要從人臉識別當前所存在的大數量類別的模式識別問題、人臉防偽問題以及複雜光照問題三個未來需要重點關注的挑戰出發,闡述了應對這三個問題的解決方案。

在多數量類別的模式識別方面,李子青指出,過去常用的解決方法是歐式空間,雖然這種方法能夠讓單位立方體的均勻分布點分布在角上,但點之間的相對距離卻是趨於零,並且其 Softmax 評分與人類視覺硬度並沒有很好的相關性,這種數據稀疏性缺乏統計意義。而現在採用的方法則叫做 Angular similarity,它從角度出發來進行分類,具備 Angle Loss、Margin、Imbalanced Data 三個特點,在總的趨勢能夠達到預期的效果。

在人臉防偽問題上,傳統方法主要是對紋理、三維形狀等方面來提取特徵從而區分真人和假體,其中矽膠是最難以辨別出來的類別。而現在則基本採用深度學習的方法,比如說李子青團隊早 2014 年提出的正樣本、負樣本方法,就將深度學習引入到了人臉防偽中,即利用眨眼、搖頭等三維結構來判斷人臉是平面的還是三維的。例外他在今年的 CVPR 的一個人臉防偽競賽就嘗試將 RGB 的、近紅外和深度信息進行融合來解決該問題。

在複雜光照問題上,李子青表示,目前計算機視覺領域的獨角獸公司做的算法很強,然而無法在工地、高鐵站等場景中得到很好的應用。他認為,應該利用主動光照來解決這個問題,這是因為環境的關照如果是不受控的光源,採集的圖像就已經被破壞得很嚴重了,在這種情況下,還需要從光電硬體上去解決這個問題。基本思路上,他指出,可以將近紅外的圖像轉化為可見光的圖像,之後用可見光的匹配技術來做。其中,他的團隊提出了 CCA 的方法,即對可見光圖像和近紅外圖像提取出共同特徵,然後在 CCA 空間上處理這些特徵,依次來克服光照問題,不過由於 CCA 容易過擬合,效果可能沒有那麼好。

2、楊淑媛:基於深度學習的複雜場景解譯

接下來,西安電子科技大學教授楊淑媛帶來了主題為《基於深度學習的複雜場景解譯》的演講,重點分享了深度學習在解決複雜雷達影像問題上的應用。

雷達從理論到實踐,現在已經有 100 多年的歷史,其功能也在不斷發生演化:從最初的測距、測角、測速發展到現在對一個場景能夠進行成像,包括二維的成像、三維的成像等等。之後隨著一些新體制雷達的出現以及天線收發方式的改變,影像信息也變得更加多維,從而能夠為理解場景提供很好的數據源。其中「雷達影像自動解譯」則將這些數據源利用起來的方法之一。

楊淑媛首先對這一方法進行了解釋:「雷達影像自動解譯」就是從這些影像信息中利用計算機來識別出來場景、地物信息,並且對其中感興趣的目標信息進行建模、分析和提取。解譯的對象其實與計算機視覺的任務類似,具體包含場景級的解譯、像素級的解譯等幾個層次方面的任務。現在隨著觀測任務的複雜化、成像技術的發展、目標所在場景的複雜化以及地物類型的增多,場景解譯迎來了更大的挑戰性難題。

接著,她介紹了為應對場景解譯的難題所做的一些基於深度學習的方法,包括:

  • 第一,借鑑人類視覺感知和認知的特點,建模人類認知特性,結合對深度結構的宏觀模擬、神經元稀疏認知的微觀模擬,以及神經元間選擇注意的介觀模擬,設計具有稀疏性、選擇注意和方向性的神經元,構建新型深度學習模型,通 過認知特性的建模提升對複雜數據的表征、處理與信息提取的能力。具體工作包括張量深度濾波網絡模型、層次化的稀疏顯著的網絡模型、非線性協同稀疏模型等;

  • 第二,利用半監督學習、孿生學習、生成對抗等技術去構建小樣本特徵學習的模塊,以有效提升小樣本下的深度網絡的性能,克服監督信息少、標註成本高、標註樣本變化大、易混淆等問題。例如在做雷達目標識別中,採用比對學習方式對數據進行一個配對的擴展組合,再加入了一個半監督的學習方式,實現在對比學習架構上做半監督模式;

  • 第三,針對深度網絡只能工作在封閉環境的局限,做了一些可以演化深度模型的嘗試,其中提出了一種能夠在線處理環境信息的度量在線的學習模式,設計了遷移張量的學習算法。而這種方式的整個過程就是一個新類檢測、樣例積累、網絡遷移學習更新、增量式分類以及多類型聚類的過程;

  • 第四,構建了由 30 台伺服器構成的一個高性能計算集群——遙感影像大數據類腦解譯計算系統,能夠快速實現對大規模影像數據的類腦解譯處理,具有計算快、穩定性強、吞吐量高、任務並行等優勢。

「深度學習確實是解決複雜雷達影像解譯的一種非常有效的方法,但在實際應用里依舊存在非常多的問題,包括開放環境問題、可靠性問題、領域數據問題、認知意義缺乏問題等等。」楊淑媛最後總結道。

3、王剛:自動駕駛沒有免費的午餐

阿里巴巴自動駕駛實驗室主任、首席科學家王剛則聚焦自動駕駛這一細分領域,從業界視角帶來了主題為《自動駕駛沒有免費的午餐》的演講。他重點分享了阿里巴巴在自動駕駛系統的計算機視覺方面的一些思考和觀點。

他指出,最近幾年,國內外無人駕駛公司都取得了非常大的技術進步,但是我們也要客觀地看到,自動駕駛還存在非常多的困難和巨大的挑戰,因而現在還沒有看到完全能夠落地的產品。

自動駕駛為什麼這麼難落地?王剛指出,單用一套通用的自動駕駛算法很難覆蓋複雜多樣化的交通場景,需要將多場景問題進行分解、細化,有針對性地解決,而這種思路被稱之為自動駕駛裡面的「No Free Lunch」理論。

他進一步指出,自動駕駛的研發依賴於三個要素——精細化場景、針對性算法和自動化平台:

  • 第一,精細化場景。過去業界的場景分類過於粗礦,無法作為「No Free Lunch」理論的支撐,所以需要研發出一個更好的精細化場景方式,去帶動整個研發體系。

  • 第二,針對性算法,這就需要對相關的算法進行相應的優化,從而能夠有的放矢地針對每個場景進行處理。

  • 第三,自動化平台、雲平台。為了實現這樣一個高效的研發體系,需要 AutoDrive 此類的自動化平台,與此同時這種自動化平台背後也離不開整個雲平台的支撐,包括數據的採集、回歸、仿真、以及模型訓練、測試評價等。

「將這三個要素進行協同,才能夠產生更好的化學反應,才能更高效地推進自動駕駛領域的研發。」

4、魯繼文:深度強化學習與視覺內容理解

清華大學自動化系副教授魯繼文隨後登台,基於其實驗室在深度學習和計算機視覺領域的一些研究成果帶來了分享,他帶來的演講題目是《深度強化學習與視覺內容理解》。

一開場他就指出,計算機視覺本質上要做兩件事:看得清和看得懂。隨著計算機視覺的發展,看得懂已基本不成問題,接下來要重點解決的問題便是看得懂,其中視覺內容理解便是一個重要的方向。

強化學習作為一項早已出現的技術,在與深度學習結合後,在解決問題上表現出了很好的性能,因而也受到了研究者的廣泛關注。魯繼文介紹道,針對視覺內容理解,其實驗室採用深度強化學習的方法主要解決了策略學習、離散優化學習和無監督和弱監督學習三個方面的問題。

其中,其實驗室主要圍繞建模視頻、離散優化做了一些工作,具體工作包括在 ICCV、CVPR、ECCV 等頂會上提出了注意力敏感深度強化學習、深度漸進強化學習、疊代調整的深度強化學習、協同深度強化學習、深度部件強化學習、雙智能體深度強化學習、深度推理決策網絡、基於深度強化學習的目標檢測、基於深度強化學習的相似性度量、基於深度強化學習的圖像檢索、基於深度強化學習的行人再識別、基於深度強化學習的網絡壓縮、基於深度強化學習的二值表示、基於深度強化學習的貝葉斯壓縮、基於深度強化學習的二值網絡等等。

最後他總結道,深度強化學習可以同時利用深度學習的表示能力和強化學習的決策能力,對很多視覺內容理解任務都可以做更好的建模策略,從而更好地提升相應視覺任務的性能。未來,希望研究者能夠就來如何將深度強化學習方法與認知計算結合,提出更加符合人類認知的深度強化學習計算模型,進一步提升視覺內容理解任務的性能。

5、勞世竑:中日計算機視覺技術:從人臉識別到自動駕駛的產業化歷程

商湯科技副總裁、智能駕駛業務總經理、商湯日本總經理勞世竑帶來了《中日計算機視覺技術:從人臉識別到自動駕駛的產業化歷程》的演講,他基於自身兩個階段的職業經歷,分享了最早通過借鑑美國的計算機視覺技術來做產業應用以及中日在計算機視覺技術方面的合作經驗。

勞世竑回憶道,他們應用 CMU 的人臉檢測技術的第一個場景就是應日本的一家公司的需求——對數據照片沖洗機器進行優化,即通過對 CMU 的神經網絡識別器進行優化,將這款機器的速度提高了 10 倍到 50 倍。隨後,他與中國清華大學計算機系教授艾海舟合作研究出了首個人臉檢測的商用晶片,並以此為起點,先後將人臉識別技術應用到了數字相機、手機以及大數據收集系統以及駕駛員監控系統中。其中比較不幸地是,成立於 2007 年的駕駛員監控系統項目當時恰逢經濟危機而被公司砍掉了,而十幾年後,當他們重新啟動該項目時,已經被其他公司超越了——說起此事,勞世竑不免有些遺憾。

而勞世竑第二個階段的經歷,則要從離開歐龍加盟商湯說起。其中,他重點分享了自身比較引以為豪的一項工作,就是讓商湯與本田合作自動駕駛的研發項目,首次將中國的人工智慧技術介紹給了日本企業,從而促成了兩國之間建立平等的合作關係。進一步,他還在日本成立了商湯(日本)公司,重點推動和本田的自動駕駛合作研發項目,並嘗試跟百度等公司的自動駕駛研發工作做出差異化——從攝像頭的角度來降低自動駕駛的技術成本,讓自動駕駛更加平民化。

「我經常被問到駕駛技術什麼時候能夠推向市場的問題,我們暫定的目標是 2025 年,但是我認為實現過程可能並沒有想像中的那麼一帆風順,可能會提前也可能會延後。並且,我們需要非常注重的一點是自動駕駛技術可靠性的驗證問題,其涉及的不僅僅是一般物體識別,還涉及到行為預測、車內外的環境理解以及可說明性問題。」

6、申省梅:視頻圖像智能化助力智慧安防建設

新加坡研究院院長、澎思科技(PENSEES)首席科學家申省梅做了最後一個報告,主題為《視頻圖像智能化助力智慧安防建設》。

她談到,當前我們周邊布滿了各種攝像頭。據英偉達預測,到 2020 年全世界會有 10 億個視頻攝像頭在使用;此外據了解中國現在已經有 1.76 億個攝像頭,3 年之後可能會有 6 億攝像頭,也即平均每兩個人一個攝像頭。對於大量的視頻,儘管目前已經有各種壓縮手段(視頻流),但該如何存儲這些視頻,以及如何從海量視頻中找出我們我們需要的人或物,做到事前預警、事中處置、事後分析,對我們來講仍然存在巨大的挑戰。

申省梅在報告中詳細闡釋了計算機視覺技術賦能智慧安防所需要技術。她認為對視頻圖像智能化需要做好幾件事:1、視頻圖像恢復增強;2、視頻圖像目標檢測跟蹤識別;3、視頻結構化;4、視頻內容的智能壓縮和視頻摘要。

申省梅針對這四個方面詳細闡釋了她所帶領的團隊在各個方面的技術及成果。例如在視頻圖像恢復增強中,他們將非常小(12×14)的人臉圖片經過高解析度處理後,人臉識別率從原來的75.18%提升到97.67%。針對行人ReID任務,他們在2018 年行人再識別VIPeR,CUHK-03,DukeMTMC-reID,Market1501 四項數據集上取得了世界第一的成績。今年9月份,澎思新加坡研究院在基於視頻的行人再識別三大數據集(PRID-2011,iLIDS-VID,MARS)上取得世界第一,大幅提升成績。在視頻結構化方面,他們能夠做到實時提取視頻物體屬性,做到實時結構化預覽。2018年4月他們在AI City Challenge - 異常檢測任務中也同樣取得了第一名的成績。

申省梅提到,在AI產業圖譜中的技術層,澎思也走在前面。最重要的觀點是,作為一個企業要應用做應用驅動的解決方案,商業驅動的算法研究。她提出算法池可選性的概念,針對場景、硬體的不同,可做不同的算法選擇,快速疊代滿足業務需求。

申省梅總結到,視頻圖像智能化非常重要,當前很多人都在用深度學習,但如果視頻數據沒有結構化,當數據量變得海量時將很難進行下去。所以視頻數據智能化是做智慧安防的一個前提,這包括很多技術,只有把這些技術都用好,我們才可以實現事前預警、事中處理、事後分析。

演講結束後,在陳熙霖的主持下,李子青、楊淑媛、王剛、馮佳時、魯繼文、勞世竑、申省梅六位嘉賓還以《後深度學習時代,計算機視覺技術的未來》,展開了一場 Panel 談論,就「如何提高數據半自動標註的效率」、「深度學習是計算機視覺的終結還是新的起點」、「計算機視覺未來的發展方向」以及「如何培養下一代人工智慧人才」等問題發表了自己的觀點並展開了討論。

文章來源: https://twgreatdaily.com/zh-cn/jtGs8G0BMH2_cNUgrGdc.html