湯曉鷗教授(1968—2023)
商湯科技創始人、全球人工智慧領域最有影響力的科學家之一、浦江實驗室主任、上海人工智慧實驗室主任、香港中文大學教授湯曉鷗因病救治無效,於2023年12月15日23時45分離世,享年55歲。湯曉鷗教授的不幸辭世,是全球人工智慧研究領域和學界的重大損失。
2017年9月8日,湯曉鷗教授在清華大學參加了由著名經濟學家錢穎一教授主持的高端學術對話會。在這場對話會上,湯曉鷗教授針對人工智慧的興起、科學家創業、人工智慧時代的大學教育等議題闡發了精彩而獨到的見解。本次高端學術對話會的文字稿以《對話布萊恩•克比爾卡、馬化騰、張首晟、饒毅、湯曉鷗:科技驅動成長》為題收入錢穎一教授所著《錢穎一對話錄——有關創意、創新、創業的全球對話》一書(商務印書館2021年3月版、2023年11月第3次印刷,第113—149頁)。在湯曉鷗教授不幸辭世之際,我們從《錢穎一對話錄》中節選了湯曉鷗教授在前述高端學術對話會上與錢穎一教授的部分對談內容,以饗讀者,並寄託我們對湯教授的深切哀思。
2017年9月8日,錢穎一與史丹福大學教授布萊恩•克比爾卡(左二)、騰訊公司董事會主席兼執行長馬化騰(左三)、史丹福大學教授張首晟(右三)、北京大學教授饒毅(右二)、商湯科技創始人湯曉鷗(右一)在清華經管學院對話
人工智慧的興起
錢穎一:我們這兒有一位人工智慧的專家湯曉鷗教授。人工智慧在這一年受到了全球的關注,從清華本科招生的情況中就可以看出來。我作為清華經管學院院長非常高興地看到,今年清華計算機成了最受追捧的專業,顯然跟人工智慧是緊密相關的。在過去的幾十年,你一直從事人工智慧的研究,所領導的在中國研究團隊的實驗室,入選全球十大人工智慧先鋒實驗室,做得非常出色。我想請你來講講,人工智慧在過去這幾年的突破,根本原因是什麼?人工智慧在未來的10年,哪些方面還會有新的突破?哪些方面不太可能有重大的突破?
湯曉鷗:非常感謝今天邀請我過來。這裡是中國最頂級的、最大的舞台,但是來了以後,沒有想到這個「舞台」這麼小(指報告廳的前台)。
人工智慧為什麼變得這麼熱?從更高的層次講,我跟饒毅的觀點有一點像。如果不做人工智慧,反過來說,那就是一種說法,就叫「自然的傻瓜」,所以不得不做人工智慧。這個領域為什麼會興起來?從20世紀50年代開始就在做人工智慧了,但是從50年代到2011年,我們真的是做得太差了。2011年,其實我們大家都不敢把自己的領域叫人工智慧,有做多媒體的,有做計算機視覺的,有做機器識別的,有做語音識別的,沒有人說自己是做人工智慧的,因為什麼都沒有做出來。
但是現在如果不管自己的領域叫人工智慧,根本就融不到錢。所以每個人都管自己的領域叫人工智慧。2011年是一個分水嶺,為什麼會有這個分水嶺呢?有四個方面原因。
第一,需求。之前手提電腦非常多,雖然這個電腦能移動,但是大部分情況下,人們不會拎著電腦去吃飯,不會出去旅遊拎著電腦拍照。手機出來以後,攝像頭變成了人的第三隻眼睛,我們在微信上發得最多的就是照片或者是視頻。一圖勝千言,這時候產生了大量的數據,這些數據要分析,所以有剛需,這是第一點。
第二,產生了大量的數據。這個量起來了,有手提電腦的人,1萬多塊錢一台還是很少的,但是紅米手機一出來,500塊錢一台,一個農民兄弟有兩個。不到1億的用戶一下子變成10億、20億的用戶。數據體量出來了,也是產生了訓練數據的激烈競爭。
第三,硬體的訓練平台。原來我們用CPU、用超級計算機的時候,做人臉識別用了1000多個核,要跑兩個月才能把一個算法跑出來。後來採用GPU,6台機器、10台機器,6個小時就跑出來了。所以,這給了實驗室和小公司能力做這個事情。
有了前三樣還是做不了,深度學習的框架允許我們做端到端的學習。
十幾個人手設計的參數想解決全球的問題,設計各種各樣的便捷條件,結果到現實中一用,沒有一個條件是滿足的,馬上就不管用了。發表了大量的文章,一出來用不了。
深度學習用網絡框架,允許我用幾千個、幾萬個、幾十億個參數,乾脆不用去理解,直接覆蓋就好了。這個時候再推出來,就可以在一些單向的應用上超過人類。在單向的應用上超過人的操作,就是可以代替人類來做這個工作。所以說這幾個原因加起來,實際上是取得突破的主要原因。
近期和遠期人工智慧在哪些領域是可以突破的呢?我覺得有三個方向用得比較多。一個是語音識別,這個相對成熟,也是第一個突破的。緊接著就是視覺,現在的主戰場就是在視覺領域。我們先把聽的能力解決了,第二個是看的能力。看的能力的場景是非常多的,這個是目前的主戰場。第三個就是對自然語言的理解,是我們真正的大腦的功能。這件事情目前完全沒有解決。關於視覺這個領域,回過頭來我們講到工業應用時再講。
人工智慧在自然語言領域的應用變得很熱,很多公司推出對話機器人,包括國外的公司。但是實際上這是一件非常難的事情,因為要求的背景知識和各種條件非常多。比如說我講一句話:上次你交給我的事情我給你辦了。「上次」是哪一次?是昨天、前天,一個星期前、一個月前、一年前?不知道。這個「事情」是關於什麼事情?這個也不知道。所有這些背景都要知道,才能理解這句話,這需要非常多的信息。或者我評價一下台上的人,今天有化學家,有物理學家,有生命科學家,有「賺錢學家」,其實我說的是企業家。你說你是做經濟的,跟我太太一個行業的,我管你們都叫「忽悠學家」。你想想,對自然語言的理解,機器怎麼能做得到?「忽悠」這個詞,是我們「東北特產」,一般人是理解不了的。
要想真正理解我們這些對話是很難的。現在市面上的智能產品是什麼呢?就是出門的時候找一些餐館,問在哪兒看電影,諸如此類這些固定的場景。還有一些機器人,好像是能跟人很聰明地對話,實際上這些機器人,好多五點鐘要下班的。我當時納悶為什麼要五點鐘下班呢?因為後台有人在幫助解決問題,後台的人下班了。這是核心的點。
是不是中國人這麼忽悠呢?其實不是的。我有一個學生在蘋果公司工作,他有一段時間很核心的工作就是召集各個團隊的人過來每周開會。這些人就是來回答反饋回來的最難的那些問題,問得最多的問題,需要他們給出一個標準答案,每次回答就是那個答案了。
所以實際上這個不是人工智慧,是「人工智障」。我兒子對這個最喜歡,他拿了機器以後就罵,人家不理他,他就拿兩台機器,讓它倆對話。一直也沒有罵起來,因為後台的人不罵。
我再講一個長遠的,人工智慧到底可能不可能控制人類?這個事情講的是最多的。
你聽到的名人、網紅講的所有的事情,都是不可能的事情。這就夠了,怎麼說呢?我們做這個行業的人,在第一線做的時候很苦。過去幾十年一直沒有做出什麼來,不好意思見人。我招生的時候說,到我們這個行業來,因為我們這個行業會持續很長時間,因為我們這個行業一輩子都做不出來。我們每年的成長速度是,前一年1%的成長,你算一下,22%到100%需要80年,這個活兒,我們是準備干80年的。深度學習一出來,我們真的是幾年以內就干到了將近70%,識別率是95%以上。
如果有一天我們這個領域的大佬從實驗室出來了,說我解決了機器人控制人類這件事情,我覺得只能說明一件事情,就是他該退休了,因為他太老了,這是絕對不可能的事情。一個是不要相信權威,權威說的話不一定是這個領域的權威。當然我的話是可以信的,因為我也不是一個權威。
錢穎一:今天你說的最權威的一句話是:不要相信權威,但是你不是權威,所以你的話是可以信的。你來評價一下現在AI領域的投資,熱得不得了,你來評價,因為你是這裡面的專家。AI的技術水平,咱們國家的這麼多的研究團隊,他們的研究水平跟世界其他的國家相比,現在是處在一種什麼樣的狀況呢?原來是否法國人比較厲害呢?現在是不是還是美國的技術最好呢?
湯曉鷗:這個今天講不完,我簡單講一下。現在國家的規劃是,到2035年趕上世界先進水平,大概是18年以後。核心研究,比如深度學習算法,真正的最早做的一批人,實際上確實是沒有我們什麼事兒。2006—2011年很多人做了很多的工作,他們在學術界受到了很大的打壓。他們的前期研究沒有跟傳統的算法結合,不懂視覺,不懂語音,拿深度學習的理論去拼,拼不過。所以說,實際上他們是蠻痛苦的。但他們堅持下來了,2011年跟微軟合作,微軟懂語音以及深度學習,又有大量的數據,雙方一結合,就真正做起來了,2012年開始發展起來,谷歌、臉書就把他們給收到公司里了,這一下子就發展起來了。
中國人在裡面其實沒有起到什麼作用。在2011年的時候,很幸運,我在微軟研究院管過那個視覺組,有很多的合作,所以我第一時間聽到了「深度學習」這個事情時,我們就壓上了。現在學術界有一個特點,越「大佬」的學校越是不願意轉向,如果我做傳統的,你讓我做深度學習,我就承認我輸給深度學習了。但是我們轉得很快,我們在傳統領域做得相當好,體量又大。轉向以後,在前三屆的學術會議上,總共有29篇文章涉及深度學習的研究,我們一個實驗室做了 14 篇文章,將近占了全球研究的一半。在2014年人臉識別技術上,我們的技術是第一個超過人類眼睛功能的,後來跟谷歌競爭,取得了很好的成績。我們開始做新的、實際的算法,18個專項技術,我們都是全球第一個做的。我們在起跑線上沒有輸,一直是領先的。但是基礎研究領域,沒有我們什麼事兒。
再往下走,我們擁有大量的數據,這個數據肯定比美國大,我們的人口就是美國的五六倍,我們有很多的應用場景,我就不說了。
從國家的相關法律方面講,其實是沒有那麼嚴格的。在限制方面,不像美國的法律制度很嚴,中國的這個領域現在是一個灰色地帶。所以我相信中國是有很多優勢的,應該是不會太落後的,所以我還是很看好中國的人工智慧的發展的。
左起:錢穎一、克比爾卡、馬化騰、張首晟、饒毅、湯曉鷗
科學家創業
錢穎一:請問湯教授,你聯合成立了商湯科技,目前被投資界非常看好,我想你的被看好肯定不是忽悠,大家確實是覺得你的公司很有價值。你剛才說了很多,是站在科學家的角度,對AI做了評論。下面轉換角度,你作為這個公司的創始人,這時候看問題的角度就不同了。人工智慧有很多應用的領域,作為公司要有市場價值和實現的目標。在你看來,人工智慧在近期或者是5年這樣的一個時間段內,哪些領域會有非常大的或是真實的市場價值?
湯曉鷗:剛才提到,克比爾卡教授2002年成立了公司,我在2002 年左右也成立了一家公司,叫美圖,我們做人臉識別、攝像頭、VR,做了一年就關掉了。我發現技術也不夠,人才也不夠,我沒有辦法再做科研了,覺得這個是不可能做的事情。在中國做原創要先做積累,再出來做公司。
2011年左右我開始再準備,那時候人也夠了,100多個博士已經培養完,我有準備。你知道我太太的脾氣,她堅決反對,她說不,就不。我在猶豫,成立一家公司非常難,但是不做,真的是很難再積累這麼強的100多人了。最後她的一句話提醒了我,她說:以你的情商和智商,公司做一年就倒閉了,上次就是。我一想,這下子可以做了,大不了就一年倒閉。
錢穎一:你太太是經濟學家。
湯曉鷗:人家說這是痛並快樂著,我覺得只有痛,沒有快樂。在國外創業,成功的機率非常小,在中國再縮小十倍,機率非常小。前面有谷歌、Facebook、微軟這些大的公司,後面有一些中國的小公司,旁邊還有政府的定向支持,上面還有兩座大山,兩座姓馬的大山。今天政府也不在這兒,谷歌也不在這兒,「大山」中的一座在這兒。
中國三分天下的局面已定,很難有機會讓一個企業再成長起來了,不管是做科技還是什麼行業,這個壓力很大。大家很早就要站隊。在國外是沒有這樣的現象的,跟谷歌做什麼事,就不能跟微軟做事了,沒有這樣的道理。但是在中國基本上是這樣的局面。這件事回頭請馬先生再講。
從我們的角度來說,我們很願意跟這幾家公司合作,雖然我們做學術的很有骨氣,大丈夫不為五斗米折腰,但是如果是六斗呢?比五斗多一斗。剛才說的一句話很重要,其實不存在一個獨立的AI行業,AI行業一定要跟場景和各個應用行業對接,跟網際網路是一樣的,如果只有網際網路,只連起來,什麼事也不幹,就剩玩兒了,也不行。這其實是一個賦能的產業,可以把各個行業的效率提高,就像谷歌,其實谷歌做無人駕駛,做AlphaGo,不是靠這個賺錢,是深度算法把搜索的效率提高了30%、50%,每一個點就意味著幾個億、幾十個億的產出。無人駕駛一開始看前景很好,現在已經分離出來了,基本上也不可能成為下一代的一個產業,就是做著玩兒。
真的是要跟各行各業結合才有發展,這個是非常非常重要的。你如果問我說哪些行業是重要的,短期是哪些,長期是哪些,對我們來說,第一步是要活下來,所以我們不能挑那些高大上的事情來做。第一步先做安防,因為安防方面,國家花的錢最多,安防非常重要,錢都花在那裡。我們要做是因為要活下來,首先要賺錢。然後是手機,手機應用有很多的需求,視覺、圖像等。我們跟高通,跟各個手機廠商包括三星,都做一些合作,這個是直接落地的,簽的都是大的合作訂單。第三個就是中國特色的「直播」,網上直播其實需要很多很多的視覺技術,不管是廣告植入,還是做各種特效,現在很多直播的App,其實最初都是我們提供的後面的核心技術。現在我們也在往前走,也在跟一些合作夥伴做這些事情。這幾個是可以直接見效的。也包括金融,我們跟銀行、跟P2P公司合作,中期或者是長期,金融肯定是發展的一個領域,用戶是外表的,核心的是大數據運算,提高效率,或者是智能投資顧問這些方面。
靠算法賺錢的投資,這個行業已經存在很久了,但是一個算法管用了,大家都用,就跟沒用一樣。緊接著是深度學習,誰先用誰先賺一把。還可以做其他的事情,比如說做保險,可以遠程定損,可以幫助他們定點地給客戶打電話,提高效率。自動駕駛、晶片、醫療這幾個領域,5—10年內AI肯定是有很大的應用。
剛才講了人工智慧替代什麼樣的職業,實際上就是頂替那些帶「老」字的職業,就是老司機、老醫生,需要積累很多很多經驗的。
錢穎一:包括老教授嗎?
湯曉鷗:不包括人工智慧的老教授,因為總要有人教他們。神經學領域你也放心,咱們兩個肯定是沒有問題,物理學領域我就不管了。為什麼說這三個領域一定是可以做的呢?因為大數據的積累。但是真正落地的時候,其實是要腳踏實地來做這個事情,是要真正從原創技術開始做。
在中國有一個特點,就是大家喜歡一擁而上。現在很多人會問我,說湯老師,為什麼現在有這麼多的企業支持做晶片,做醫療和自動駕駛?為什麼這三類企業這麼多?我說這三類企業5—7年之內是不會賺錢的,但是投資人不會說你怎麼還不賺錢,所以怎麼忽悠都行。這個行業「忽悠」是最多的,好多人拿給我看,全人工智慧晶片,讓我們調研一下。我就問:你這個全人工智慧晶片怎麼弄的?晶片是大企業做的,你怎麼把這個事做了呢?他說先把錢拿到了再找人。這個是完全不靠譜的東西,但是已經融資了。踏踏實實地做,其實是有很多事情可以做的。自動駕駛領域有30多項技術,真的是要好好做。我們隊伍里一半的人在做自動駕駛,因為這個門檻是最高的。
晶片不能自己做,一定要跟大的晶片廠商合作。汽車也是一樣的,一定要跟汽車廠商合作,OEM廠商來做,它們是有百年的經驗,你只是作為其中「大腦」的一部分。醫療領域就更不用說了,牽涉各行各業,還牽涉法律方面的事情。醫療事故是怎麼出的,我也不清楚。
後面的事情是特別多的。所以這個真的是需要從很高的層面,或者是通過大的公司來做這些事情。小公司大量融資,最後幾百家公司「百花齊放」,結果就會很亂。
經常有人問我:湯教授,我一直不明白,我們公司的人跟我講,自己也做人臉識別,也做圖像識別,準確率跟你們也不相上下,你們到底有什麼不同?我就回答說:我們寫了第九交響樂,他們會演奏第九交響樂。如果你想聽第十交響樂、第十一交響樂、第十二交響樂,我們可以談。
(本文節選自錢穎一著《錢穎一對話錄:有關創意、創新、創業的全球對話》)
《錢穎一對話錄:有關創意、創新、創業的全球對話》
錢穎一 著
ISBN:978-7-100-18650-6
商務印書館
2021年3月第1版,2023年11月第3次印刷