文心一言出世 百度決戰人工智慧

2023-04-06     商學院雜誌

原標題:文心一言出世 百度決戰人工智慧

類ChatGPT應用為何在2023年的春天「競相開放」?「文心一言」可否成為百度的新技術引擎呢?

文|王倩

ID | BMR2004

來源 |《商學院》雜誌4月刊

千呼萬喚始出來!

2023年,百度創始人、董事長兼執行長李彥宏首次公開亮相,便帶來了百度的重磅產品——文心一言。但這一次,公眾對李彥宏和「文心一言」有點小失望。

錄播互動、無現場演示,兩位高管略微磕絆的演說,給原本屬於文心一言的高光時刻,增加了一種難以言說的意味。

發布會當日,百度集團(09888.HK)股價午後跳水,一度跌逾9%。在百度文心一言發布前一天,當下爆火的ChatGPT宣布升級到第4代。文心一言正對標ChatGPT,外界不可避免地將二者進行了對比。此外,類GPT應用還有Google旗下Bard等。

類ChatGPT應用,為何在2023年的春天「競相開放」?「文心一言」可否成為百度新技術引擎呢?

01

誕生

每隔一段時間,人工智慧領域就會有一個新的熱點出現。而2022年的爆款,非生成式AI莫屬。生成式AI,即利用現有文本、音頻文件或圖像創建新內容的技術,無論是ChatGPT、還是Google的Bard、抑或文心一言,都屬於生成式AI。

文心一言是百度研發的對標 ChatGPT的大語言模型、生成式AI產品。

在百度文心一言的發布會現場,李彥宏演示了文心一言的幾種能力:文學創作、商業文案的創作、數理邏輯的推算、中文的理解、多模態生成。

李彥宏表示,大模型訓練需要有大算力、大數據和大模型,每一次訓練任務都耗資巨大。根據國盛證券報告《ChatGPT 需要多少算力》顯示,GPT-3訓練一次的成本約為 140 萬美元,對於一些更大的 LLM(大型語言模型),訓練成本介於 200 萬美元至 1200 萬美元之間。

這種耗資巨大的投入,並非每一個企業都能支撐得起。財報顯示,2022 年百度核心研發費用 214.16 億元,占百度核心收入比例達到 22.4%。

同時,這種超大規模模型的訓練和推理,給深度學習框架帶來了很大考驗。除了資金,還需要有強大的算力支持。為了支持千億參數模型的高效分布式訓練,百度的AI深度學習框架——百度飛槳(PaddlePaddle),專門研發了 4D 混合併行技術。

文心一言並非「橫空出世」,早在2019 年,百度就推出了文心大模型ERNIE 1.0。目前,ERNIE 3.0每天接受數十億次用戶的搜索請求。根據其最新發布的ERNIE 3.0 Zeus(任務知識增強),已經擁有千億級參數,並具備智能創作等各類自然語言理解和生成任務。

百度是為數不多的進行全棧布局的人工智慧公司。所謂全棧布局,是指AI深入到從設計到最終實現的每個環節,包括底層晶片的IP和晶片產品、計算架構、API等。

人類進入人工智慧時代,IT技術的技術棧發生了根本性變化。過去技術棧基本分為三層:晶片層、作業系統層和應用層;現在可以分為四層:晶片層、框架層、模型層和應用層。文心一言位於模型層。

「洛陽城裡春光好,陽艷無雙不負賞。紙貴漫天詩詞賦,貴比黃金樂未央」。這是百度發布會現場,文心一言即興作的一首「藏頭詩」,不僅如此,它還能準確講出「洛陽紙貴 」這一成語典故以及對應的經濟學原理。不得不說,文心一言在中文語言和中國文化上的表現,令人滿意。

從文心一言的表現看,某種程度上它具有了對人類意圖的理解能力,回答的準確性、邏輯性、流暢性都逐漸接近人類水平。但整體而言,這類大語言模型還遠未發展到完善的階段,有賴於通過真實的用戶反饋而逐步疊代。

02

布局AI

百度為國內生成式AI開了一個頭。

北京大學新聞與傳播學院教授胡泳認為,人工智慧是科技領域的一個大事件,影響深遠。不僅涉及到產業和企業,還會影響到整個社會和文化。「從戰略角度講,中國網際網路廠商肯定要進入,否則意味著我們將在關鍵技術的跨越階段錯失很大的機會。」胡泳表示。

過去十年,移動網際網路的發展改變了國內的網際網路格局。尤其是在BAT三陣營的爭奪中,單從股價來看百度已經掉隊多年,尤其在火熱的電商潮流中,百度很明顯地敗下陣來,這也讓人工智慧這條主賽道成為百度的必爭之地。

實際上,早在2010年百度就成立了專門的業務部門——自然語言處理部,邁出了初探AI的第一步,並由此成為了中國最早深度布局AI的企業。2013年初百度深度學習研究院正式成立。2016年,百度推出人工智慧產品百度醫療大腦。2017年,李彥宏搭乘基於apollo技術的自動駕駛汽車,經北京五環路去參加發布會,引發轟動。也就是在這場發布會上,百度宣布調整戰略為All in AI。

李彥宏認為,生成式AI將催生新產品、新業態,會有很多創業和投資機會。百度首席技術官王海峰表示,文心一言是新一代知識增強大語言模型,是在ERNIE及PLATO系列模型的基礎上研發的。它的關鍵技術包括監督精調、從人類反饋中進行強化學習(RLHF)、提示構建、知識增強、檢索增強和對話增強。

值得注意的是,監督精調是百度基於對中國語言文化和中國應用場景的理解,篩選了特定的數據來進行模型訓練;提示構建則是對詞語序列的機率分布進行建模,利用上下文信息預測後續詞語出現的機率分布,從而同時使用RLHF,將人類偏好作為獎勵信號並微調模型,實現有邏輯的對話能力。

03

商業化

文心一言發布當日,百度股價大跌,但峰迴路轉,次日(3月17日),百度的股價大漲,收盤漲幅超13%。百度方面表示,已經有650家企業與百度的文心一言達成合作。

李彥宏表示:「百度希望和大家一起,推動人工智慧技術進步,讓所有人都能使用最先進的生產力工具,讓所有人都能從中受益。」

胡泳認為,百度在這場AI之戰中有屬於自己的機會。一方面,百度本身是技術出身,且核心是中文搜索,原本就擁有數10億的搜索數據和圖片數據,這些數據和圖片構成了百度的知識圖譜,這是它的先天條件。

在胡泳看來,AI人工智慧的競爭,核心是算法、算力和數據的綜合競爭,數據是扼守這場競爭的重要一環,百度對中文語言的處理處於獨一無二的位置,這些都屬於百度的先天優勢。

另一方面,百度不僅要做面向消費者層級的產品,還要做面向企業的或者面向產業的產品。百度將文心一言定義為自主研發的產業級知識增強大模型,這並非簡單的模型,而是意味著百度有實力在行業大模型上有工具、有平台,能夠支撐企業和開發者進行高效便捷的應用開發。

有機構預測,到2030年,人工智慧可以將每一個知識工作者的生產力提高4倍以上。很多人的工作性質會發生不可逆轉的改變,而且不少人也在擔心這一趨勢的到來。

在胡泳看來,現階段人工智慧與人類有可能是一種互補關係。雖然在內容市場中難以避免機器人的進入,但是機器人的投入使用並不是為了替代人類寫作,有時候可能是擔任人類創作者的助理,在某種程度上可以減少內容市場中的人力投入,而在某些場景內,人工智慧的寫作工具比人類作家有能力在更短的時間裡創造更多內容。

根據李彥宏的預測,文心一言將會打開三大產業的機會大門。

第一類是新型雲計算公司,文心一言將根本性地改變雲計算行業的遊戲規則,其主流商業模式將從IaaS變為MaaS。之前企業選擇雲廠商更多看算力、存儲等基礎雲服務。未來,企業更多會看框架好不好、模型好不好,以及模型、框架、晶片、應用這四層技術棧之間的協同。

第二類是進行行業模型精調的公司,這是通用大模型和企業之間的中間層,它們具有行業專有技術,調用通用大模型能力,為行業客戶提供解決方案。簡單來說,預訓練的大模型是基礎設施,在此基礎上可以快速抽取生成場景化、定製化、個性化的小模型,實現不同行業、垂直場景的布局。比如百度文心大模型,已經在電力、金融、媒體等領域發布了10多個行業大模型。

第三類是基於大模型底座進行應用開發的公司,即應用服務提供商。就像移動網際網路時代,最成功的商業產品不見得是安卓和iOS,而是基於安卓和iOS開發的微信、淘寶、抖音等各種超級應用。

但讓胡泳擔心的是,技術的飛速發展正突顯法律的滯後。他呼籲,能否預先將法律框架建立起來,建立相應的規則,讓人工智慧的發展進入一個良性軌道。

04

較量

儘管人們對文心一言「千呼萬喚」,但其亮相不免讓業界有些失望:錄製Demo無現場演示,業界爭議紛紛,在資本市場,百度股票更是出現大跌。

網際網路分析師丁道師認為,原因在於百度文心一言發布前一天,OpenAI的GPT-4發布,而GPT-4的表現力遠超這個時代所有同類型產品。

ChatGPT-4提前登場,文心一言不可避免地會被拿來做比較。李彥宏既強調百度的客戶及百度本身對文心一言的龐大需求,也不斷放低身段,承認百度「沒有完全Ready」,這也意味著百度要對標ChatGPT甚至是GPT-4,門檻依然很高。

在胡泳看來,百度真正的考驗剛剛到來,雖然百度早就將主賽道調整到人工智慧上,如今人工智慧領域也已然迎來機會,但在業內燃起熊熊的戰火背景下,如果百度尚未有相關產品,那麼在人工智慧領域的較量可能就會落在下風。

然而,文心一言與ChatGPT的對比是不可避免的。在文心一言發布後,不少測試者便對二者進行了比較。丁道師認為,ChatGPT的回答相對來說更簡潔一些,百度的文心一言回答更豐富一些;文心一言對中文的理解,在一些特定的中文語言環境之下,表現要比ChatGPT要好一些;由於百度文心一言是中國企業研發的產品,要符合中國的法律法規和監管政策,很多敏感問題無法給出答案。相對來說,ChatGPT回答一些敏感問題時,尺度要更大一些。

丁道師認為,需要客觀承認,文心一言是一款新的產品,和GPT-4這樣的「前輩」相比,差距較為明顯。

但他同時表示,如果僅僅在中國市場使用這種生成式的語言模型,隨著時間的推移,比如說一年後、兩年後,相信文心一言的表現要好於ChatGPT。反之如果在全球範圍內使用的話,短期內還是ChatGPT比百度要好一些。

胡泳也認為,百度可能會占有另外一個優勢,當它面對中國市場的時候,因為中國的產業和企業有它的獨特性,那麼它顯然會比國外的公司更熟悉中國企業的應用。

本文來源《商學院》雜誌2023年4月刊

文章來源: https://twgreatdaily.com/zh-cn/89c86ee154f9de9c893472c559275be1.html