​李維:大模型技術的過去、現在與未來

2023-12-05     汽車商業評論

原標題:​李維:大模型技術的過去、現在與未來

撰文 / 李 維(出門問問大模型團隊工程副總裁)

編輯 / 張 南

回顧全球科技圈這一年最熱的詞和最熱門的話題,ChatGPT和Open AI都是不可繞過的大神。

隨著ChatGPT在技術、市場和眼球方面的一炮走紅,Open AI的商業模式也在中國拷貝、複製。百度、華為、商湯等科技公司紛紛染指這一風口,中國迅速 掀起「百『模』大戰,它對正在興起的汽車智能化以及智能座艙發展有何現實意義與實踐?

在11月11日舉行的2023中國汽車供應鏈峰會(CASCS)第二天議程上,出門問問大模型團隊工程副總李維就大模型落地應用作主題演講。他回顧過去一年大模型的發展,探討了大模型的本性與痛點以及它在人工智慧生成內容(AIGC)領域的前景。

談及ChatGPT橫空出世的意義,李維說「為什麼說ChatGPT的發布標誌著語言通天塔的正式建成?因為它把以前需要用樣本才能交代的任務,改成了不需要樣本,你直接跟它說話、下指令就可以了。」

李維指出,整個大模型的趨勢叫AGI(通用人工智慧),從OpenAI推動,最後就是邊界越來越大,慢慢滲透到不同的領域,如果在車載領域當中,把車窗的交互和其他的人工智慧的體驗做上去,最後的護城河就是你的數據,因為你在別的方面沒有辦法跟真正的通用大模型的滾滾往前走的車輪比。

對於ChatGPT的能力和潛力,李維認為「沒有任何問題」,但問題是有能力和能不能把能力變成錢,怎麼能讓它在商業上取得成功是兩回事。

很多能力競賽因為大廠的捲入,最終轉換成免費的服務,或者轉換成白菜價的服務,這個產業就被做死了。

對於未來的商業化,李維強調,總體而言,LLM落地應用的商業模式問題,其實沒有根本解決。路在何方?還多在探索之中。

以下是李維的演講實錄,汽車商業評論記者張南、實習記者徐千麥整理,此處略有刪節。

很高興有機會跟大家談一談大模型以及大模型怎麼落地的現狀和前景。我做了一輩子自然語言處理,就是NLP,現在趕上了NLP大爆發(即大模型)的時代。

我的演講分三個部分,先快速回顧一下過去一年大模型的風暴,然後探討一下大模型本性和痛點,最後談談大模型在AIGC方面的現狀和前景。AIGC的意思就是人工智慧生成內容,這是大模型落地應用的重要方向。

大模型的回顧與突破

多少年人類有這麼一個夢想,如果建成語言通天塔的話,我們人類之間的交流就不再成為困難,人類在世界大同的路上就克服了一個根本的障礙。在《聖經》上語言通天塔叫作巴別塔。ChatGPT去年11月30日的發布,標誌著巴別塔已經建成。這是劃時代是事件。

為什麼說巴別塔已經建成了呢?因為大模型實際上已經達到和超過人類的語言能力,事實上,它比我們 natives還native,無論是理解還是生成。不管你說的是一個順暢的句子還是不順暢的,也不管你說的是什麼不同的語言,甚至方言,它都可以聽得懂。生成能力更不用說了,寫東西比我們要順溜,文思泉湧。

我希望這次聽講的人,記住兩個術語。它們特別重要,我想強調一下。一個是Few shots,一個是Zero Shot。什麼意思?Few shots就是少量的樣本,Zero Shot就是零樣本,不給樣本。

為什麼說ChatGPT的發布標誌著語言通天塔的正式建成?因為它把以前需要用few shots才能交代的任務,改成了zero shot,完全不需要樣本,你直接跟它說話、下指令就可以了。

舉個例子,以前你如果想讓一個大模型在文本當中把裡面的人名、地名或者是你感興趣的任何類型的情報挖掘出來,你需要給它樣本,讓它舉一反三。例如,告訴它我想抽取「張三」、「李四」這樣的人名。你給它5個、10個樣本以後,它就明白了,原來你要這樣的東西,它有一個通過樣本觸發的泛化能力,它就可以把類似的人名抽取出來。

到了ChatGPT發布以後,你突然不需要給它樣本了。你要人名,或者你要地名的話就直接說,請你把下面這篇文章的人名抽出來。這就是Zero Shot,不需要舉樣,它知道「人名」這個概念就是跟「張三」、「李四」這樣的名字掛鉤的。這是很大的突破。等於一下把門檻降到無限低,低到所有的人都可以跟它交流,給它髮指令,語言和知識方面讓它做什麼事情都可以。模型聽懂人話了。在這之前是半懂不懂,需要你 few shots給它舉例。

回顧來看,few shots比此前已經很大進步了,在大模型時代之前要給機器學習成千上萬的例子才可以做。前幾天OpenAI開了 GPT Store的發布會,就更有神奇的色彩了。你喝著咖啡跟它聊著天,聊著聊著就可以給你造一個數字人,是滿足你聊天中提出的要求的專職的數字人,而聊天用的都是自然語言,不需要任何代碼。

我們回顧一下,11年前是第一次AI深度神經革命,在這之前是傳統的人工智慧,主流傳統機器學習只能做專項的任務,局限性很強。

11年前做到什麼呢?就是深度神經網絡證明了,只要你給大量的標註樣本,不是few shots,也不是zero Shot,我說的是大量的樣本(thousands of shots),用大量訓練樣本告訴他想要做的事情,深度神經網絡就可以做得跟人一樣好,甚至比人還要好。爆發點在圖像識別,後來也橫掃語音和機器翻譯,原因就是這些任務有很多標註樣本,用樣本就可以搞定,越多越好。

到了6年前,許多標註樣本才能做的事情,沒有辦法了,因為遇到了自然語言文本的攔路虎。

自然語言裡面你要做一個特殊任務,這些東西通常沒有人類的標註。AI就遇到了這麼一個瓶頸。怎麼讓人標註成千上萬的樣本,使得它知道我想要做的事情呢?你可以召集很多的民工,沒完沒了的標註,你可以做這件事情,但是只能做特定的任務,一旦換了另外一個任務,又要組織同樣的力量才能把樣本弄出來,這就成了知識瓶頸:沒有辦法對每一個自然語言任務,都有資源和時間去做海量標註。

但是,6年前大模型的出現就把這個瓶頸克服了。克服的根本原因是所謂自學習的東西被創造出來。自學習講到底就是從語言學習語言,而語言文本無處不在,這樣,樣本就是無窮無盡的,學的是通用的能力,通用的語言能力後來證明可以賦能所有的自然語言任務。

大模型革命的原理就是如此。源源不斷的原生自然語言是人類生活的自然副產品。突然被自監督學習巧妙利用 (用所謂「掩碼」) 構成了訓練大數據。每個人,包括死人,都成為自然標註員了,他們留下的數據共同成就了語言通天塔的建成。如果依賴刻意的組織性人類標註工作,再給50年,也難達到基礎大模型現在表現出的功力。

時間推進到11個月前,不但是通用的語言能力和語言背後的知識被大模型學到了,任務需求變成Zero Shot了,大模型可以聽懂人話指令了。

於是迎來了我們身處其中的信息產業的第三次大革命,絲毫不比前兩次大革命遜色。第一次是網際網路革命,第二次是移動平台革命。從宏觀來說,這句話沒有錯,但是在我們這一行的人都知道我們現在實際上處於下滑期。這個下滑期也不奇怪,符合多次被驗證的新技術的普及曲線(technology adoption curve):總結以前每次技術革命的爆發趨勢,會發現當非常大的技術革命到來的時候,會一下子衝到頂,衝到頂以後會有一個下降期,我們現在處在下降期,現在還沒有下到該觸底的時候,觸底反彈後就會比較健康平穩的發展。下滑是因為大模型落地應用遭遇了商業挑戰。

大模型的商業挑戰

現在不管是從大眾媒體還是廣播電視,你可以聽到很多關於大模型的消息,一個浪潮高過一個浪潮,國內有百模大戰,投入那麼多資源進去,怎麼說現在處於下滑期呢?

大模型是造出來了,美國先造出來,國內百模大戰就跟著做,做出來的結果也不錯,基本上復現了美國大模型的基礎能力,表現在語言方面的能力,知識方面的能力,還有計算的能力和推理的能力等等。這些能力,中國的大模型都復現出來了,就這一點來說,我們趕超的勁頭並不弱。人工智慧就兩家,一家叫美國,一家叫中國,其他的所有各家都遠遠落在後面。

但是實際上無論美國還是中國,我們都遇到一個大的問題,大模型是造出來了,但是我們不知道怎麼用大模型賺錢,怎麼為它找到一個能夠持續的商業模式。

三個多月前,投資者就開始非常謹慎。我有很多投資圈的朋友,他們說從長期的趨勢來說,大模型技術革命的整體浪潮大家都看到了,模型已經聽懂人話,讓它幹什麼就幹什麼,很多以前覺得不可思議的事情都可以辦到。就是說,大模型表現出來的技術革命的潛力已經不是一個問題,這裡有一個很大的共識。

但是具體到投資人,他們想的問題是在商業模式比較清晰之前,錢要燒多久才可以賺錢。總不能沒完沒了投,現在他們有凍結投資的意思。頭部的一兩家可能融資環境好一點,再往下其實很難,就是處於下滑期。

下滑期的原因是因為商業模式不清晰,不要說比較Web1了。Web1是網際網路剛剛興起的時候,主要商業模式就是基於在線廣告的眼球經濟,造就了Google,造就了亞馬遜,造就的中國大廠還有百度、騰訊和阿里。

更近一點的技術革命就是mobile時代,造就的是美團、Uber和滴滴這樣的超級應用。這些超級應用利用了mobile時代的特點,真正把買家和賣家連接起來了,然後平台可以收到規模效應。

現在,超級應用在大模型技術革命面前,我們還沒有看到,我們不知道何時會出現,是怎樣的產品形態。

大模型可以寫個詩,寫個文案,甚至你要過組織生活寫報告,也比你寫得快,寫得好。現在寫程序也有Copilot幫助你,編程序的效率顯著提高。最近Open AI發布的GPT Builder使得一般的老百姓不需要懂得任何程序,也可以造一個「機器人」。

造什麼機器人呢?我拿到GPT Builder 以後問自己。然後我就用自然語言跟它聊天,不編寫任何程序,也造了一個機器人。我自言自語說我造一個機器人,幫助我做短視頻。以前做短視頻有一個問題,不管是GPT生成文案,或者自己寫出文案,有了文案製成短視頻,必須在短視頻當中要加一些圖,這是文生圖的任務。文生圖不是已經解決了嗎?大模型是多模態了。但是要把文案作為輸入,輸出的是一連串的圖,跟文字要對得上,這也不是特別簡單的事情。我真的做出來了,花三個小時就做出來了。

我說希望你把文案首先按句子分開,如果一個句子太短就按兩個句子來分,每分開一段,給我找一個最合適的圖示。後來它就給我做,就是聊天聊著聊著就可以把以前需要一個工程師花一個星期都不一定做出來的東西,現在可以把它聊出來。簡單得讓人懷疑世界。

ChatGPT的能力大家能感受到,沒有任何問題,但問題是有能力和能不能把能力變成錢,怎麼能讓它在商業上取得成功是兩回事。有用的東西多呢,空氣有用,水也有用,很多時候人並不會為空氣和水買單。同樣的能力,如果大廠捲入競賽,你就發現可以把能力轉換成一種免費的服務,或者轉換成白菜價的服務,這個賽道就被做死了。商業被做死,就談不上落地賺錢了。所以說,商業模式的問題其實沒有真正解決。

人工智慧生成內容(AIGC)所面臨的問題

我們再更深入地談一談大模型落地中到底有什麼大的問題。

最大的問題就是幻覺問題,還有穩定性的問題,你確實是喝著咖啡聊著天就可以一天造好幾個機器人出來,每個機器人都可以各司其職,完成你以前做不了的事情。但是你發現它常常不是百分之百的做好給定的工作,有時候也「陽奉陰違」,這個就很討厭。

比如說我剛才做的那個機器人,我說你把這些生成的圖放在文件裡面,我就可以把文件下載,做短視頻就更方便。我不願意從螢幕上的輸出結果一幀一幀的拷貝。在我的實驗中,至少這個生成文件的指令它沒聽我的,稀里糊塗就上線了。當然,我還可以繼續跟它嘮叨,反覆跟它嘮叨,因為生成文件本身已經不是大模型的局限了。現在大模型的框架能力,調用一個函數也好,或者是輸出什麼格式以便調用資料庫,或者把某些東西存成到一個local file,或者存成一個file給你一個連結等等,這些基本能力它都有。但是有這個能力並不意味著你讓它做,它就百分之百按照你要求去做。這跟傳統編程序不一樣,編程序可能有bug不工作,但是把bug消除了以後,你讓他做什麼就做什麼,這個百分之百有確定性的。

不穩定是因為隨機性,隨機性也是大模型的本性。大模型本來就是個機率模型,本身就有隨機抽樣在裡面。這個問題在應用現場是很大的毛病:如果做一個實際的應用,你交付給客戶,這個東西有時候work,有時候不work,有時候生成這樣的結果,有時候生成那樣的結果。客戶是不能接受的。

還有個知識欠缺的問題。大模型本身是有很多知識的,知識特別淵博。但是它到一個具體垂直行業,知識是有限的,這可以理解,垂直行業的數據它可能夠不著,有些是私有化的數據。垂直行業很多知識,比如說在一個場景當中,一個巨大的資料庫裡面有那麼多具體的知識點,在序列學習所需要的大數據裡面,很少有提到,或者乾脆就不出現,沒有人把所有的資料庫知識點都變成自然語言讀出來。

大模型本質上是機率模型。如果你要的知識在自然語言中沒有冗餘性,大模型是學不會的,它記不住,沒有冗餘性的知識在大模型訓練中等同於噪音。

產品形態與ToPC的機會

大模型落地的產品形態,其中最重要的兩個概念是CoPilot(副駕駛),和Agent(智能代理)。CoPilot的意思就是作為助手的大模型給你用,大模型只是產生candidates,最終的採納在用戶或專家手中。這種形態下的大模型應用沒有問題,因為幻覺可以由用戶來糾正。其實,人最難的是做一件事情的過程,那個過程很痛苦,做出來以後,怎麼挑錯,人很能幹,錯了就改唄,所以幻覺不是問題,穩定性也不是問題。穩定性差就多生成一些候選,最後從候選中選優,拍板交付出去的是用戶,這種是CoPilot的工作方式。大模型捲來捲去大多圍繞著CoPilot的應用,同質化也很厲害,做的東西大同小異,反正都說是副駕駛。

副駕駛向前發展,逐漸就到智能代理的形態。智能代理有一定的「自主性」,你不需要告訴它「怎麼」做,只需要告訴它目標是什麼,有點像自動駕駛當中的L1/L2級的副駕駛,到L3/L4級的智能代理的跳躍。馬斯克做自動駕駛,希望CoPilot越來越不需要人的時候,就自然演變成Agent,就能自主駕駛了。

最後說一下大模型商業落地的賽道。一個是副駕駛形態針對終端消費者的ToC賽道,基本上是贏者通吃,我們初創公司沒有辦法跟大廠比拼,應該主動迴避。針對企業的ToB很難避免項目制模式。ToB的領域很縱深,常要求私有化部署,costs很大,也很難做。

像我們這樣的公司的最新主張強調做ToPC(To Professional Consumer),對象是內容創作者,能夠直接產生商業價值的地方。我們的AIGC配音產品魔音工坊,現在有40萬的註冊付費用戶,說明有人買單。大模型真地提高了用戶的內容創造能力,它可以收穫更多的廣告分成,自然也就願意買單。

文章來源: https://twgreatdaily.com/zh-tw/414499dce8209399bd5433b82aa1c638.html