CCL 2020閉幕,數萬人見證2020年中國NLP全貌剪影

2020-11-02     AI科技評論

原標題:CCL 2020閉幕,數萬人見證2020年中國NLP全貌剪影

作者 | 智源社區&AI科技評論

2020年10月30日—11月1日,「第十九屆中國計算語言學大會」 (The Nineteenth China National Conference on Computational Linguistics, CCL 2020)成功在線召開。本屆會議由中國中文信息學會主辦,海南大學承辦,智源社區提供技術支持。

本次會議彙集了國內大多數自然語言處理領域的專家、學者、學生及從業人員,數萬人同時在線觀看,成為我國計算語言學領域的一次盛會,同時也是我國自然語言處理領域當前研究全貌的一次剪影。

本次大會收到303篇投稿(中文204篇,英文99篇),錄用109篇論文(中文74篇,英文35篇)。總體錄用率35.97%,中文論文錄用率36.27%,英文論文錄用率35.35%。

最終來自北京大學的李素建團隊和來自中科院自動化研究所的趙軍團隊分別獲得英文最佳論文,來自南京師範大學的周俊生團隊和來自北京理工大學的慧慧團隊獲得中文最佳論文,另外來自北京語言大學的朱述承、劉鵬遠等獲得最佳海報獎,騰訊AI Lab獲得最佳系統展示獎。

本屆會議共包含了 7 場特邀報告、4場前沿講習班,並圍繞會議論文、科研經驗、前沿動態綜述、系統平台展示進行了全方位的展示。

1

特邀報告

10月31日上午,由來自北京大學的陸儉明教授做開場報告《亟需解決好中文信息處理和漢語本體研究的接口問題》。陸儉明教授是漢語言學界的泰斗,在學界被譽為20世紀中國現代漢語語法研究八大家之一。他在報告中指出,如今NLP研究如火如荼,然而漢語本體的研究成果卻沒能在當下的人工智慧研究中派上用場,其根本原因在於沒有解決好中文信息處理與漢語本體研究的接口問題。這一方面導致漢語言學的「掉隊」,另一方面也使得NLP中缺乏「語言知識」。因此他建議,漢語本體研究應當更多地關注中文信息處理的需求,從當下的注重「理論」思辨,轉向深入句法語義等的研究。

隨後劉群教授圍繞預訓練模型做了主題為《預訓練語言模型研究進展和趨勢展望》的報告。劉群教授是華為諾亞方舟實驗室語音語義首席科學家,曾獲2019 年ACL最佳論文獎。劉群教授在報告中指出當前預訓練語言模型的近期進展朝向五個方面發展,即更強大(大力出奇蹟)、更小巧(壓縮與加速)、更優秀(功能更多、性能更高、訓練更快)、更聰明(外部知識融入)、更能幹(跨界出圈)等。結合提到的這五個維度,劉群教授認為預訓練語言模型的研究方興未艾,未來還有無限的想像空間。此外,他還介紹了諾亞方舟實驗室在NLP預訓練模型方面的研究工作,包括哪吒(NEZHA)模型、BERT壓縮三劍客(TinyBERT、DynaBERT、TernaryBERT)以及在多語言、解釋、任意詞序生成、融合知識、文本搜索等方面進行的預訓練語言模型,基本是沿著五大維度進行開展。(Slides下載:https://liuquncn.github.io)

10月31日晚,來自德國漢堡大學的張建偉教授,做了《跨模態學習的自適應、預測和交互》的主題報告。張建偉教授是德國漢堡大學多模態技術研究所所長,德國漢堡科學院院士,是機器人領域專家。在單一模態信息匱乏的情況下,其他模態的信息將在總體上增強系統的魯棒性、適應性和預測性。張建偉教授在報告中,分析了目前人工智慧在機器人領域的發展現狀,通過「2.0機器人與2.0人類」的項目介紹了大腦啟發式深度學習、多模態數據處理、圖像信息的語言理解、人機協作中的跨模式感知和學習等技術。

來自愛丁堡大學的Mirella Lapata教授,分享了其將NLP技術應用到電影分析(Movie Analysis)中的研究,主題報告為《What's This Movie About? Automatic Content Analysis and Summarization》。電影分析是許多任務的總稱,包括自動解釋、提取和總結電影的內容。Mirella 教授的研究根據編劇理論中的轉折點等將電影生成形式化,並基於語言和視聽信息,提出了一個圖神經網絡模型。Mirella指出,將熒幕劇本(screenplays)表示成(稀疏)圖有助於提升可解釋性。

11月1日上午,清華大學施路平教授做了主題為《面向人工通用智能的類腦計算》的報告。施路平教授是清華大學類腦計算研究中心主任,其研製的全球首款異構融合類腦計算「天機芯」曾被作為封面文章發表在《Nature》期刊上。類腦計算,簡單來說是借鑑人腦存儲處理信息的方式發展、基於神經形態、面向通用人工智慧的的新型計算技術,這種技術打破了傳統「馮·諾依曼」架構,具有學習能力,且具有超低功耗。施路平教授詳細介紹了該領域的最新進展,極大開拓了自然語言處理領域學者的視野。

來自微軟亞洲研究院的劉鐵岩博士的報告主題為《四兩撥千斤:實現高效的NLP模型預訓練》。劉鐵岩博士是微軟亞洲研究院副院長,被公認為「排序學習」領域的代表人物,近年來他在深度學習、強化學習等方面也頗有建樹,特別是最近研發的麻將AI Suphx火爆一時。報告中,劉鐵岩博士介紹了他所帶領的團隊在NLP模型訓練效率問題上的一些研究,他們分別從數據處理、模型結構、損失函數、優化算法等維度,將訓練效率提升了一個數量級。

德國達姆施塔特技術大學的Iryna Gurevych教授的報告為《Let’s Argue: Understanding and Generating Arguments》,即理解和生成論據。Iryna 教授是計算論據(computational argumentation)領域的創始人之一,曾擔任ACL 2018大會的程序委員會主席。分析和生成論據,即使對於人類來說也是一件相當困難的事情,如何利用NLP技術來解決該問題具有極大的挑戰性。Iryna在報告中完整闡述了這一領域的進展,特別是他們發起的ArgumenText 項目。

由以上 7 場特邀報告可以看出,特邀嘉賓分別來自不同領域,研究主題與NLP研究或緊密或無關,這充分體現了CCL會議的深度性、前沿性和開放性。

2

論文收錄&最佳論文獎

本屆會議收錄論文303篇,相比於2019年的371篇,出現大幅度下降,這很大程度是受疫情影響。

從另一方面,本次會議收錄論文在各個分領域的收錄數量基本持平,NLP應用近兩年增長迅速。

論文錄用率上,本年度無論是中文還是英文都保持在40%以下。

本年度投稿論文來自108個大學和研究所,其中投稿最多的機構包括北京語言大學、蘇州大學、清華大學、北京大學、新疆大學等,錄用論文最多的機構前5名分別是北京語言大學、蘇州大學、北京大學、清華大學和北京交通大學。

此外,組委會對收錄論文的主題進行詞雲分析,其中中文論文中「漢語」、「分析」、「方法」為關鍵詞,二英文論文則以「Network」、「Multi」、「Chinese」、「Model」等為主。

經由組委會評定,本屆會議評選出4篇最佳論文(英文2篇,中文2篇)、1篇最佳海報獎、1項最佳系統展示獎。

1. 最佳論文獎

(1)「Towards Causal Explanation Detection with Pyramid Salient-Aware Network」, Xinyu Zuo, Yubo Chen, Kang Liu, Jun Zhao, 中國科學院自動化所

(2)「LiveQA: A Question Answering Dataset over Sports Live.」 Qianying Liu, Sicong Jiang , Yizhong Wang and Sujian Li. 北京大學

(3)「面向中文AMR標註體系的兼語語料庫構建及識別研究.」 侯文惠 , 曲維光 , 魏庭新 , 李斌 , 顧彥慧 , 周俊生. 南京師範大學

(4)「面向司法領域的高質量開源藏漢平行語料庫構建.」 沙九, 周鷺琴, 馮沖, 李洪政, 張天夫, 慧慧. 北京理工大學

2. 最佳海報獎

「偉大的男人和倔強的女人:基於語料庫的形容詞性別偏度歷時研究」, 朱述承, 劉鵬遠. 北京語言大學

3. 最佳系統展示獎

文本理解系統TexSmart, 騰訊AI Lab

3

多種形式,聚焦NLP研究方方面面

在10月30日,清華大學劉知遠副教授、中科院計算所沈華偉研究員、上海交通大學張偉楠副教授、新加坡國立大學雷文強博士分別就知識指導的NLP、圖卷積神經網絡、強化學習、對話式推薦四個領域做了全面、深度的講習報告,對了解相關領域的最新前沿進展意義重大。

在30日夜晚,來自中國人民大學的趙鑫副教授、中科院計算所的馮洋副研究員分別從教師的視角介紹了他們多年以來的研究經驗,包括研究生的早期科研應該怎麼走,如何做好的研究等。此外,來自復旦大學的桂韜博士生(導師:黃萱菁、張奇)和上海交通大學的張倬勝博士生(導師:趙海)從學生視角講述了他們在科研當中所遇到的困難與克服辦法。這一學生研討會,聚焦於學生在科研當中遇到的各種問題,對學生的科研道路具有重要參考意義。

在10月31日下午舉辦了兩場評測研討會,共有五個評測任務,分別為智源-京東多模態對話挑戰大賽、「訊飛-法研杯」司法閱讀理解、「小牛杯」幽默計算-情景喜劇笑點識別、「古聯杯」古籍文獻命名實體識別、中文語義依存圖分析等。

11月1日下午,分別由10位來自不同高校、單位的學者分別就NLP領域不同方向的前沿動態進行了綜述報告,包括語言生成(周浩,位元組跳動)、語義理解和生成(宋林峰,騰訊)、信息抽取(張奇,復旦大學)、常識(吳俁,微軟亞洲研究院)、閒聊型對話(張偉楠,哈工大)、任務對話(俞舟,哥倫比亞大學)、預訓練語言模型(藍振忠,西湖大學)、機器翻譯(蘇勁松,廈門大學)、 模型結構優化(肖桐,東北大學)、跨語言學習(張梅山,天津大學)。

大會主頁:http://cips-cl.org/static/CCL2020/index.html

文章來源: https://twgreatdaily.com/zh-tw/XFeJjXUBXUDM5GzGemCI.html