CIKM投稿數量1700篇,圖神經網絡成熱門方向,最佳論文紛紛進行圖研究

2019-11-06     AI科技評論

中國占總投稿近四成

作者 | Camel

編輯 | 唐里

2019年11月3日-7日,信息檢索和數據挖掘的頂會 ACM CKIM 2019在北京召開,並於昨日頒發了本屆會議的最佳論文獎,其中來自以色列本古里安大學的Noy Cohen等人獲得最佳研究論文獎,阿里巴巴安全團隊獲得最佳應用論文獎、IBM獲得最佳Demo獎。

本屆會議是CIKM的第28屆會議,由梅宏院士和Ramamohanarao Kotagiri擔任大會榮譽主席,朱文武教授和陶大程教授擔任大會主席。自1992年首次舉辦至今,CIKM也是第二次來到中國。

在本次會議中著名學者Steve Maybank、韓家煒、裴健和石建萍等人分別做了主題演講,除了頂會必備的tutorial、workshop、oral以及post外,本次會議還舉辦了AnalytiCup 以及十餘場工業演講(Industrial Plenary Speech)。

會議收錄情況

本次會議參會人數達700人次,由於地理原因,其中亞洲學者占絕大多數(約65%),而其中大部分又是中國學者(365人);其次是來自美國的學者(139人)。

在論文投遞方面,本屆會議共有1720篇投稿,其中長論文1031篇,短論文471篇,應用研究論文174篇,Demo論文44篇。相較於去年會議論文顯著增加,其中長論文也在歷史中首次破千。

考慮論文投稿的地理分布,可以看出絕大部分論文是來自中國,占全部論文的四成;其次則來自美國,約有300多篇。

據大會PC主席介紹本次大會共有5194名審稿人,平均來說每篇文章都會有3.02個審稿人進行評審,這保證了會議論文接收的質量。

本次論文共接收202篇長論文(20%)、107篇短論文(23%)、38篇應用論文(22%)和26篇Demo論文(59%),平均接收率僅為22%。

而按地域來考察論文的接收率,我們可以從下圖中看出,來自中國的論文接收率為20%多一點,基本與平均接收率持平;而來自美國和澳大利亞的都在30%左右。這說明,在數據挖掘、信息檢索和資料庫這些領域來自中國的論文質量已經處於較高水平,但仍需提升。

最有意思的是對論文話題分布的分析。話題論文的接收率(紅線)一定程度上反映了審稿人的興趣,若按接收率進行排序,可以看出廣告和金融方向的論文更容易被接收;而對科學數據進行處理的文章更可能被拒絕掉。而另一方面,柱狀圖的高低則能夠反映研究者的興趣點,顯然data mining、機器學習和深度神經網絡仍然占據高位,而資料庫、網頁挖掘等則相對小眾。

本屆會議的主題是「AI for Future Life」,可見以深度學習等為主的人工智慧技術在信息檢索、數據挖掘領域已經起到了關鍵作用,成為研究的主流技術。大會聯合主席陶大程表示:「我們認為未來人工智慧會滲透到生活的各個方面,目前其主要深度學習,本屆大會希望討論深度學習和傳統的統計學習在未來會有什麼樣的發展趨勢。」

在本次會議中,圖神經網絡成為最大的熱點,相關的tutorial及報告也往往成為參與人員趨之若鶩的重點內容。大會程序主席崔鵬告訴AI科技評論:「從第一天講習班的情況來看,只要涉及到圖,聽的人都比較多。現在大家對深度學習已經基本無感了,但圖神經網絡是一個值得研究方向,是深度學習的下一波研究。」

陶大程認為之所以圖神經網絡受到關注,主要有三點:1、相對於深度學習,圖的表征比較多;2、目前對於圖的理論分析還比較欠缺,因此還有許多可以研究的地方;3、雖然圖網絡有各種各樣的問題,但實際上在一些問題上已經取得了比其他網絡較好的優勢。

最佳論文

在11月5日的晚宴上頒發了最佳論文獎,共有三類、四個獎項:最佳研究論文獎、最佳研究論文(runner-up)獎、最佳應用論文獎與最佳 Demo獎。

1、最佳研究論文獎

最佳研究論文獎由以色列本古里安大學的Noy Cohen等人獲得。

論文連結:http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf

現在,機器學習算法已經被廣泛地應用於許多領域,然而並非所有使用的人都是機器學習的專家,在自己的研究中如何找到最合適的算法成為一個函待解決的問題。作者認為對於這些非機器學習專家來說,一個正確的算法就是,在給定數據集、任務和評價方法的情況下得到最好的效果。基於此種考慮,Cohen等人提出了AutoGRD的模型,這是一種新型的用於算法推薦的元學習模型。如下圖所示是AutoGRD訓練的流程圖:

AutoGRD首先將數據集表示為圖,並將它的隱式表示提取出來,然後將這個表示用來訓練排序元模型,這個模型能夠對未見過的數據集準確地推薦性能最佳的算法。

Cohen等人在250個數據集上進行了評估,結果證明AutoGRD對分類和回歸任務都極為有效,比最新的元學習和貝葉斯方法都要好。

2、最佳研究論文Runner-up獎

(註:Runner-Up 相當於第二名)

Runner-Up獎由北大、微軟和阿里巴巴的研究人員共同獲得,其中第一作者Qingqing Long來自北京大學。

論文連結:http://www.cikm2019.net/attachments/papers/p409-longA.pdf

對於現實世界中普遍存在的關係數據,網絡是對其建模最好的方式。於是將頂點映射到低維空間(即網絡嵌入)適用於各種各樣的預測任務。已經有許多工作研究了如何利用真實網絡所具有的成對接近性(pairwise proximity),然而卻很少有研究者關注真實網絡的另一個特性,即聚類性。所謂聚類性,即頂點傾向於形成各種規模的社區——由此形成一個囊括不同社區的層級結構。

在Qingqing Long等人的這篇文章中,作者提出了一種子空間網絡嵌入的框架SpaceNE(Subspace Network Embedding)。這個框架保留了社區通過子空間形成的層級結構,具有靈活的維數,且本質上具有層級結構。此外,在文章中作者認為子空間還能夠解決表征層級社區的其他問題,例如稀疏性、空間扭曲等。

作者在論文中還提出針對子空間尺寸進行限制從而達到消除噪聲的方法。這些約束條件通過可微分函數進一步逼近,從而達到聯合優化。此外他們還採用了逐層方案來減少由參數過多引起的開銷。實驗證明SpaceNE在解決社區層級結構方面是有效的。

3、最佳應用研究論文獎

該獎項的獲得者全部來自阿里巴巴安全團隊,研究的內容是關於閒魚上垃圾評論檢測過濾,這也是應用向唯一的最佳論文(不像research track還有runner-up獎)。

論文連結:http://www.cikm2019.net/attachments/papers/p2703-liA.pdf

網上購物平台的評論會影響顧客的購買選擇,這是我們每個人的親身體會;但在各個網上購物平台往往會存在大量具有誤導性的評論。閒魚作為中國最大的二手商品交易平台,垃圾評論也同樣大量存在。其背後的反垃圾系統面臨著兩個巨大的挑戰:數據的可擴展性以及垃圾評論者的對抗行為。

阿里的安全團隊提出了一種基於圖卷積網絡(GCN)的大規模反垃圾的方法,名為GAS(GCN-based Anti-Spam)模型。

論文通過圖神經網絡算法提取閒魚異構圖和評論同構圖上用戶、商品、評論的表徵信息,綜合對評論進行判斷。離線實驗表明,這種方法優於利用評論信息、用戶特徵和瀏覽商品信息等來反垃圾的基線方法。

目前,這種新的算法已經在閒魚評論的線上防控中部署,減少了包括刷單、兼職廣告、引導線下交易的評論,優化了交易體驗,降低了平台交易風險。

這裡需要著重提一下,本次會議阿里不僅獲得了兩項最佳獎,還獨家承辦了2019年CIKM的挑戰賽。在挑戰賽中,開放了真實電商數據集供選手在用戶行為預測和大規模推薦系統兩大賽道進行角逐。主會期間,阿里巴巴甚至主辦了一整天的E-commerce AI Workshop,分享了阿里的電商AI算法和電商AI基礎設施。

4、最佳Demo獎

最佳Demo獎由IBM拿得。

論文連結:http://www.cikm2019.net/attachments/papers/p2953-bozarthA.pdf

深度學習模型迅速發展,現在可以說已經無處不在。然而儘管研究人員很興奮,但大多數軟體開發者卻並非深度學習專家,很難直接將DL的研究成果用到自己的開發當中,最新的DL模型通常需要相當長的時間才能在工業中得以廣泛應用。特別是加上TensorFlow、PyTorch、Theano等框架的不兼容更導致這種情況惡化。

IBM的研究人員為了解決這個問題,提出了一個稱為Model Asset Exchange(MAE)的系統,使用這個系統,開發人員可以輕鬆地訪問最先進的深度學習模型。

在這個系統中,底層的深度學習框架可以是任何一種,在此之上他們提供了一個開源的Python庫(MAX框架),這個庫會將深度學習進行封裝,並使用標準化的RESTful API將編程接口進行統一化。開發者只需使用這些API接口,便可以利用封裝在裡面的深度學習模型,而不用去管底層的框架。

IBM的研究人員利用MAX,封裝並開源了30多個來自不同研究領域的最先進的深度學習模型,包括計算機視覺、自然語言處理和信號處理等。

One More Thing

本次會議滿滿的中國元素,特別是在Banquet中,舞獅,戲劇相繼上演,甚至都把畫臉譜、吹糖人都搬到了現場,看圖說話:

舞獅

京劇

畫臉譜

文章來源: https://twgreatdaily.com/zh-tw/lmR2Qm4BMH2_cNUgXkdL.html